Statistika I Informatika 1.pdf

  • Uploaded by: Boka
  • 0
  • 0
  • January 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Statistika I Informatika 1.pdf as PDF for free.

More details

  • Words: 46,788
  • Pages: 173
Loading documents preview...
Zoran Milošević Dragan Bogdanović

STATISTIKA I INFORMATIKA u oblasti medicinskih nauka

Niš, 2012.

Autori: Zoran Milošević, vanredni profesor Medicinskog fakulteta Univerziteta u Nišu Dragan Bogdanović, docent Državnog univerziteta u Novom Pazaru Izdavač: GALAKSIJA Za izdavača: Mlađan Ranđelović Recenzenti: Prof. dr Vera Grujić, Medicinski fakultet u Novom Sadu Prof. dr Eržebet Ač Nikolić, Medicinski fakultet u Novom Sadu Prof. dr Tatjana Ille, Medicinski fakultet u Beogradu Tehnički urednik: Dipl. ing. Stefan Bogdanović Štampa: GALAKSIJA - Lukovo Tiraž: 500 ISBN 978-86-6233-010-9 Zabranjeno preštampavanje i kopiranje bez saglasnosti autora i izdavača. Odlukom Nastavno-naučnog veća Medicinskog fakulteta Univerziteta u Nišu broj 14-7454-5/2-1 od 01.10.2012. godine odobreno je štampanje ove knjige u vidu udžbenika. CIP - Каталогизација у публикацији Народна библиотека Србије, Београд

PREDGOVOR Udžbenik je rezultat višegodišnjeg rada autora i njihovih saradnika sa Instituta za javno zdravlje i Medicinskog fakulteta Univerziteta u Nišu. Studenti će u njemu pronaći potreban materijal da se savladaju osnove medicinske statistike i informatike. Autori su uložili veliki napor kako bi u ovom udžbeniku studenti na jednom mestu mogli pronaći materijal za sticanje znanja i razumevanje statističke metodologije u oblasti biomedicinskih nauka. Uz svako poglavlje dati su i odgovarajući primeri za praktičnu primenu. Obradjena su sva značajna poglavlja deskriptivne i analitičke statistike. Udžbenik je napisan tako da studentima daje smernice za naučno istraživački rad i upućuje ih u osnove primene računarskih statističkih paketa u biomedicinskim naukama. Udžbenik je namenjen studentima osnovnih studija medicine, stomatologije, farmacije i strukovnih studija. Pored njih udžbenik mogu koristiti i studenti svih poslediplomskih studija i zdravstveni radnici i saradnici za obnavljanje stečenih znanja i njihovo unapredjivanje i rešavanje praktičnih naučno istraživačkih problema. Na savetima korisnim za pisanje ovog udžbenika autori duguju zahvalnost recenzentima: prof. dr Veri Grujić i prof. dr Eržebet Ač Nikolić sa Medicinskog fakulteta Univerziteta u Novom Sadu, kao i prof. dr Tatjani Ille sa Medicinskog fakulteta Univerziteta u Beogradu. Autori su zainteresovani za sve predloge i primedbe na rukopis koji je u udžbeniku sa željom da u sledećem izdanju on bude još kvalitetniji i sadržajniji. Niš, oktobar 2012. godine

Autori

Izvod iz recenzija Knjiga je napisana razumljivo, smisleno i u skladu je sa nastavnim planom i potrebama za razumevanje i prihvatanje biostatistike i informatike koji se realizuje na Medicinskom i srodnim fakultetima. Poglavlja su koncipirana tako da lagano uvode čitaoca u biostatistiku, njene mogućnosti i upućuju na korišćenje SPSS. Prof. dr Tatjana Ille Svako poglavlje je ilustrovano primerima, a na kraju svakog poglavlja su zadaci za vežbu. Posebna vrednost knjige je što sadrži uputstvo i način primene statističkog programa SPSS za sve prezentovane statističke analize. Koncepcija i redosled poglavlja su logični, knjiga je napisana stručno i razumljivim jezikom za korisnike čije bazično obrazovanje nije iz matematike i nauka baziranih na matematici. Prof. dr Eržebet Ač Nikolić Knjiga autora Zorana Miloševića i Dragana Bogdanovića predstavlja celinu u kojoj autori izlažu složenu problematiku precizno, stručno, kritički i analitički, vodeći organizaciju sadržaja postepeno i logično od opštih ka konkretnim pitanjima. Ova knjiga je namenjena studentima medicine, farmacije, stomatologije, ali ne samo njima. Ona može poslužiti i studentima drugih fakulteta i svima onima koji koriste statistiku u svom radu. Stoga, knjigu Statistika i informatika u oblasti medicinskih nauka preporučujem kao univerzitetski udžbenik i predlažem njeno štampanje, kako bi se omogućilo njeno korišćenje i u najširoj stručnoj javnosti. Prof. dr Vera Grujić

1. MEDICINSKA STATISTIKA 1.1. Definicija i predmet proučavanja Statistika nije nauka koja proučava zakone po kojima se odvijaju razne pojave u živoj prirodi i društvu, nego naučna metodologija kojom se ove pojave istražuju. Kako se ova metodologija zasniva na merenju, brojanju i računanju, odnosno na primenjenoj matematici, najprimerenija definicija bi bila: Statistika je naučni metod kvantitativnog proučavanja masovnih pojava u prirodi i društvu. Izraz statistika se u početku odnosio na prikupljanje i korišćenje podataka koji su bili od značaja za državu, kao što su evidencije o stanovništvu, posedima i prihodima, a vodi poreklo od italijanske reči state što znači država. Potreba za efikasnijom državnom administracijom, kao i osnivanje prvih osiguravajućih društava uticali su na razvoj vitalne statistike (praćenje i analiza rađanja i umiranja) u imperijalnoj Engleskoj XVII veka, a pioniri u ovoj oblasti bili su Džon Graunt (1620-1674. g.) i Vilijam Peti (1623-1687. g.). Gotovo u isto vreme Blejz Paskal (1623-1662. g.) i Pjer de Fermat (1601-1665. g.) postavili su osnove teorije verovatnoće, a u svrhu povećanja uspeha u igrama na sreću, koje su bile popularne u visokim društvenim krugovima u Francuskoj. Dalji podsticaj za razvoj statističke metodologije dala je astronomija, gde je rezultate mnogih pojedinačnih posmatranja bilo potrebno objediniti u jedinstvenu teoriju. Vodeće ličnosti u ovoj oblasti bili su Pjer Simon Laplas (1749-1827. g.) u Francuskoj i Karl Fridrih Gaus (1777-1855. g.) u Nemačkoj. Belgijski astronom i matematičar Adolfo Katlet (1796-1874. g.) je prvi počeo da primenjuje statističku metodologiju u biološkim, medicinskim i sociološkim istaživanjima, dok je englez Fransis Galton (1822-1911. g.) uveo analizu varijabilnosti i međuzavisnosti između vrednosti različitih obeležja (regresije i korelacije) u biološkim merenjima. Karl Pirson (1857-1936. g.) i Rafael Veldon (1860-1906. g.), profesori Univerzitetskog Koledža u Londonu, nastavili su dalji razvoj primene statističke metodologije u biologiji i uveli pojam biometrije za vrstu studija kojima su se bavili. Dominantna ličnost u razvoju statistike i biometrije u XX veku bio je Ronald Fišer (1890-1962. g.), statističar, biolog i genetičar iz Engleske. Široka primena računarske tehnologije od osamdesetih godina XX veka doprinela je da statistika postane jedna od naučnih oblasti sa najvećim stepenom razvoja. Predmet proučavanja statistike su masovne pojave u prirodi i društvu. One se sastoje iz mase pojedinačnih elemenata, koji kao nosioci prirode tih pojava u statističkom smislu predstavljaju statističke jedinice. Masovna pojava definisana pojmovno, prostorno i vremenski predstavlja osnovni skup ili populaciju.

5

Definisanje osnovnog skupa: • Pojmovno – određivanje elemenata skupa npr. starost stanovnika, sadržaj knjige, vrste telesnih povreda... • Prostorno – određivanje prostora npr. Niš, Nišavski okrug... • Vremensko – određivanje vremenskog trenutka ili razdoblja Statističke jedinice osnovnog skupa su sve istovrsne, ali ne i istovetne. Obeležja statitističkih jedinica koja ih čine neistovetnima predstavljaju predmet statističkih istraživanja. Nejednakost nekog obeležja između jedinica naziva se varijabilnost. Najčešće proučavani osnovni skup u medicinskim istraživanjima je stanovništvo ili populacija. Ljudi u ovom skupu predstavljaju statističke jedinice, a obeležja koja ih čine neistovetnim su brojna: pol, uzrast, obrazovanje, zanimanje, zdravstveno stanje, vakcinalni status i dr.

1.2. Razlike u proučavanju žive i nežive prirode NEŽIVA PRIRODA Jedna pojava se identifikuje kao uzrok, a druga kao posledica. Između pojava postoji striktna uzročno - posledična veza. Jedan isti uzrok daje uvek istu posledicu. Srazmerno dejstvu uzroka menja se i posledica. Mogu da se isključe svi sporedni faktori. Između pojava postoji matematička ili funkcionalna veza. Ispitivanjem jednog elementa donosi se zaključak o celoj masi jer su elementi međusobno istovetni i istorodni. Hipoteza se proverava klasičnim eksperimentom - ogledom.

ŽIVA PRIRODA Često nije moguće izvršiti identifikaciju uzroka i posledice. Između pojava ne postoji striktna uzročno - posledična veza. Nije 100% sigurno. Prodiranje virusa u organizam ne znači obavezno oboljevanje. Promena posledice nije srazmerna dejstvu uzroka. Na posledicu utiču i sporedni faktori koji se ne mogu isključiti. Između pojava postoji stohastička ili statistička veza. Pojave ispoljavaju svoje zakonitosti tek na masi elemenata, a elementi su međusobno istorodni ali nisu istovetni. Hipoteza se proverava posebnim statističkim testovima.

1.3. Teorija verovatnoće i zakon velikih brojeva Statistika je kao naučno istraživački metod zasnovan na teoriji verovatnoće i njenom postulatu – zakonu velikih brojeva. TEORIJA VEROVATNOĆE se bavi utvrdjivanjem mogućnosti za nastajanje događaja ili dobijanja nekih vrednosti.

6

Verovatnoća javljanja nekog događaja jednaka je:

P

n N

Gde je: n – broj očekivanih (željenih) događaja, a N – ukupan broj mogućih događaja. Verovatnoća se kreće u intervalu od 0 do 1 (0 do 100%). 0 - potpuno odsustvo verovatnoće 1 - puna verovatnoća Potpuno odsustvo verovatnoće (0) ne može nastati ako postoji bar jedna očekivana eventualnost, kao što i puna, totalna verovatnoća (1) nije moguća čim postoje više mogućih događaja od jednog. Kod statističke (stohastičke) veze verovatnoća je uvek manja od 1. Kod matematičke veze verovatnoća može da bude i 1. P=1 P>0,5 P=0,5 P<0,5 P=0

događaj je nužan događaj je verovatan događaj je neizvestan događaj nije verovatan događaj je nemoguć

Očekivani događaj uvek ima svoju suprotnost, a to je neočekivani, komplementarni događaj. Verovatnoća javljanja neočekivanog događaja jednaka je razlici između pune verovatnoće i verovatnoće očekivanog događaja, odnosno 1 - P. U matematičkom smislu verovatnoća predstavlja odnos između jednog ili više očekivanih događaja i svih mogućih događaja. Na primer, verovatnoća da će pri jednom bacanju novčića pasti pismo (jedan od dva moguća ishoda) iznosi: P pismo  

1  0,5 2

a verovatnoća da će pri jednom bacanju kocke pasti šestica (jedan od šest mogućih ishoda) iznosi: P šestica  

1  0,17 6

Pravila verovatnoće: - Pravilo sabiranja (adicije): ako se dva događaja (A i B) međusobno isključuju, verovatnoća da se dogodi jedan od njih (A ili B) jednaka je zbiru njihovih verovatnoća: P(A ili B) = P(A) + P(B) Primer: verovatnoća da će pri jednom bacanju kocke pasti petica ili šestica iznosi: P(petica ili šestica) = P(petica) + P(šestica) =0,17+0,17=0,34

7

- Pravilo množenja (multiplikacije): ako su dva događaja (A i B) međusobno nezavisni, verovatnoća da se dogode oba događaja (A i B) jednaka je proizvodu njihovih verovatnoća: P(A i B) = P(A) × P(B) Primer: verovatnoća da će pri dva bacanja kocke pasti prvo petica pa šestica iznosi: P(petica i šestica) = P(petica) × P(šestica) =0,17×0,17=0,03 Slučajno promenljivo obeležje je obeležje koje poprima pojedinačne modalitete ili vrednosti sa određenom verovatnoćom. Distribucija (raspodela) verovatnoće prikazuje način na koji je ukupna verovatnoća (koja je jednaka 1) raspodeljena na pojedine vrednosti slučajno promenljivog obeležja. Svaku distribuciju verovatnoće određuju neki od statističkih parametara (npr. aritmetička sredina, standardna devijacija). Distribucije verovatnoća delimo na diskontinuirane i kontinuirane. Postoje različiti pristupi u računanju verovatnoće: – subjektivan pristup podrazumeva lični stepen verovanja (npr. da će svet propasti 2050. godine); – frekvencijski pristup temelji se na brojanju događaja pri ponavljanju eksperimenta (npr. koliko puta će novčić pasti na glavu ako ga 1000 puta bacimo); – a priori pristup pretpostavlja poznavanje teorijskog modela, tj. distribucije svih mogućih verovatnosti nekog događaja (npr. boja očiju deteta majke s plavim i oca sa smeđim očima).

1.3.1. Verovatnoća a priori Pre nego što bacimo kocku, teorijska a priori verovatnoća da ćemo iz jednog bacanja baciti broj 6 iznosi: P = 1/6 = 0,17 = 17% Verovatnoća da ćemo jednim bacanjem novčića dobiti ,,glavu'' (ili ,,pismo'') je P = 1/2 = 0,5 = 50% Ako smo tri puta bacali novčić i sva tri puta dobili „pismo” da li to znači da je verovatnoća da u četvrtom bacanju dobijemo „glavu” sada veća? Ona i dalje iznosi 50%! Teorija verovatnoće važi samo na velikom broju slučajeva i tek ako se on približava beskonačnosti, verovatnoća se manifestuje u pravom odnosu. Ovakva dešavanja proučavao je u 17. veku švajcarski matematičar Žak Bernuli, a u 18. veku teoriju su dalje razvili francuski matematičari Laplas i Puason.

1.3.2. Verovatnoća a posteriori Prikažimo jedan ogled u duhu Bernulija: U kutiji imamo veliki, ali nepoznat broj crnih i belih kuglica. Želimo da saznamo udeo belih kuglica, odnosno verovatnoću da ćemo izvlačenjem samo jedne kuglice iz kutije izvući baš belu.

8

Ovakva verovatnoća naziva se a posteriori. Verovatnoća izvlačenja bele kuglice je:

P

n N

gde je: n – broj izvučenih belih kuglica, a N – broj ukupno izvučenih kuglica Posle 10 izvlačenja dobili smo 5 belih i 5 crnih kuglica. Na osnovu samo ovih ponavljanja možemo predpostaviti da je verovatnoća izvlačenja bele kuglice:

P

5  0,5  50% 10

Verovatnoća izvlačenja crne kuglice je odatle:

1  P  1  0,5  0,5 Posle 100 izvlačenja dobili smo 55 belih i 45 crnih kuglica. Sada predpostavljamo da je verovatnoća izvlačenja bele kuglice:

P

55  0,55  55% 100

Ali posle 1000 izvlačenja dobili smo 600 belih i 400 crnih kuglica. Tek sada sa većom sigurnošću možemo tvrditi da je verovatnoća izvlačenja bele kuglice:

P

600  0,6  60% 1000

a da je odnos belih i crnih kuglica: 6:4 Pravi odnos se manifestovao tek posle velikog broja izvlačenja.

1.3.3. Puasonov zakon velikih brojeva Pri proučavanju masovnih pojava dobijaće se sve tačniji rezultati ukoliko se proučavanje primenjuje na što više posebnih javljanja proučavane pojave. Ako bi bilo moguće obuhvatiti i proučiti sve posebne manifestacije, rezultati proučavanja bi verno i istinito objasnili pojavu. Zakon velikih brojeva predstavlja postulat teorije verovatnoće i tek njegovom primenom u proučavanju masovnih pojava dokazano je da se one ne ponašaju haotično već da i u njihovom javljanju postoje određeni odnosi i zakonitosti.

9

2. STATISTIČKO SREĐIVANJE I PRIKAZIVANJE PODATAKA 2.1. Tipovi podataka Na početku bilo kakvog istraživačkog procesa potrebno je definisati statističku masu tj. skup jedinica na kojima treba izvršiti planirano istraživanje. Ovako definisan skup naziva se u statistici osnovni skup, koji se sastoji od statističkih jedinica. Statističke jedinice su istovrsne, tj. imaju određene iste osobine ili bar jednu osobinu na osnovu koje se svrstavaju u osnovni skup. Osobine po kojima se statističke jedinice međusobno razlikuju nazivaju se obeležja i ona su predmet proučavanja tokom istraživanja. Različiti vidovi u kojima se obeležja mogu javiti nazivaju se modaliteti ili kategorije obeležja. Obeležja u statistici mogu se podeliti na prosta i složena. Prosta obeležja imaju jasne granice između modaliteta npr. pol, bračno stanje. Kod složenih obeležja ne postoji mogućnost da se uspostavi jasna granica između modaliteta ili postoji veliki broj modaliteta npr. uzrok smrti, zdravstveno stanje i dr. Obeležja se prema obliku u kome se iskazuju dele na numerička i atributivna. Sa statističkog aspekta najvažnije je da li se obeležja mogu izraziti kvantitativno ili ne. Sva obeležja koja se mogu izraziti brojčano nazivaju se numerička obeležja, npr. telesna težina, nivo holesterola, koncentracija hemoglobina, broj bolesnika. Numerička obeležja se dalje mogu podeliti na neprekidna (kontinuirana) i prekidna (diskontinuirana). Neprekidna numerička obeležja dobijaju se u procesu merenja i njihova karakterisitka je da ona mogu da uzmu bilo koju vrednost. Telesna težina novorođenčeta može biti izmerena na vagi koja pokazuje jednu decimalu, pa će i telesna težina nekog novorođenčeta biti npr. 3,3kg, ali ako imamo vagu koja meri na 4 decimale težina će biti prikazana kao 3,3482kg. To znači da kod neprekidnih numeričkih obeležja brojčane vrednosti koje se dobiju zavise od tehničkih mogućnosti mernih instrumenata. Ova obeležja se izražavaju u određenim jedinicama mere. Nasuprot neprekidnim obeležjima, prekidna nastaju u procesu brojanja i predstavljaju se u vidu celih brojeva. Primer ovakvog obeležja je broj bolesnika, ocena na ispitu, broj novorođenčadi i dr. Postoje obeležja koja se ne mogu meriti i ne mogu izraziti brojčano. Takva obeležja se nazivaju opisna ili atributivna i njihove osobine se opisuju: pol, bračno stanje, zdravstveno stanje (oboleli, nisu oboleli) i dr. Po svom karakteru ova obeležja su diskontinuirana.

10

2.2. Merne skale Mere svojstva obeležja pridruživanjem brojeva ili oznaka Postoji četiri nivoa merenja i četiri merne skale vrednosti obeležja: Nominalna skala (a = b) Zasniva se na atributivnim karakteristikama. Obeležja se klasifikuju u jedan od mogućih modaliteta. Ova skala pokazuje da se jedan modalitet razlikuje od drugog, ali ne daje informaciju o smeru i veličini te razlike. Primeri su: pol, bračno stanje, dijagnoza bolesti i dr. Podaci koji se na ovoj skali prikazuju su po svojoj prirodi različiti. Neka svojstva (obeležja, atributi, varijable) nabrajamo, neka merimo. Pol biva označen rečima ili simbolom m/ž ili sa 1 za muško 2 za žensko ili binarno (tako će pol biti pretvoren u dve varijable: muško 1 0, a žensko 0 1). Pol kao varijabla ne može primiti drugu vrednost. Boja očiju može biti zelena, plava ili smeđa. Na ovaj način prikazali smo tri kategorije, ali se za njih ne može reći da predstavljaju skalu sređenog intenziteta. Takva svojstva kao što su pol ili boja očiju zovemo nominalno „merenim“ svojstvima (lat. nomen, nominis = ime). Ordinarna skala (ab, a=b) Rangira modalitete obeležja prema unapred usvojenim kriterijumima njihovog značaja. Rangiranje može biti opisno ili brojčano, ali nema informacije o veličini razlike između rangova. Na primer, obeležje „ishod lečenja” možemo rangirati u 5 modaliteta, opisno, ali i brojčano: 1- izlečen, 2- stanje poboljšano, 3- stanje nepromenjeno, 4- stanje pogoršano i 5- umro. Prvi rang je bolji od drugog, drugi od trećeg i td. Ilustrativni primer ove merne skale je i prikaz intenziteta opekotina, njih možemo rangirati u četiri stepena. Pojedinačno svaki stepen predstavlja u stvari dogovornu kategoriju intenziteta opekotina. Takvo svojstvo zovemo ordinalno „merenim“ svojstvom (lat. ordo, ordinis = red, vrsta). Uobičajeno je da se ocene na ispitu kreću u rasponu 5-10, što je takođe ordinalno mereno svojstvo. Intervalna skala (a-b) Koristi merne jedinice koje predstavljaju identične intervale i zbog toga nam mogu pružiti informacije o apsolutnim razlikama između izmerenih vrednosti. Formirane su tako da nemaju stvarnu nultu vrednost i zbog toga nam ne daju obaveštenje o relativnim razlikama između izmerenih vrednosti.

11

Kao najbolji primer može poslužiti temperatura izmerena u stepenima Celzijusove skale. Ukoliko telesna temperatura kod jednog bolesnika pre primene leka iznosi 39°C, a sat vremena posle primene je 37°C, možemo zaključiti: - da je telesna temperatura opala, - da apsolutna razlika između ovih vrednosti iznosi 39-37=2°C. Međutim, ne možemo tvrditi da je temperatura opala za 2/39*100=5% jer se apsolutna nula kod ove skale nalazi na -272°C, a ne na 0°C. Skala odnosa (a-b i a/b) – omogućava najviši nivo merenja. Obezbeđuje uvid u sve odnose između izmerenih vrednosti: redosled, apsolutnu i relativnu razliku između njih. Ovo je moguće jer može da se izmeri i nulta vrednost. Primer su: težina, visina i dr. Ako je osoba pre dijete bila teška 100kg, a posle nje 84kg, možemo zaključiti: - da je osoba izgubila na telesnoj težini, - da je apsolutna razlika u težini 100-84=16kg i - da je osoba umanjila težinu za 16/100*100=16%.

2.3. Metode prikupljanja podataka Tokom istraživačkog procesa ispitivana pojava može biti posmatrana u celoj populaciji (potpuno posmatranje) ili na delu populacije (delimično posmatranje). Metode potpunog posmatranja su metod popisa i metod registracije i izveštaja. Metod popisa snima stanje neke masovne pojave u tačno određenom trenutku. Popis je određen kritičnim momentom pojave koji predstavlja trenutak koji određuje koje će statističke jedinice ući u popis, kao i vremenom trajanja popisa. Metod registracije i izveštaja, za razliku od metode popisa, registruje podatke za određeni vremenski period. Medicinska dokumentacija predstavlja grupu sredstava za usklađeno evidentiranje i prikupljanje podataka o događajima i aktivnostima u sistemu zdravstvene zaštite. Funkcije medicinske dokumentacije:  Daje uvid u zdravstveno stanje bolesnika  Omogućava postavljanje dijagnoze i odabir terapije  Olakšava komunikaciju između lekara i bolesnika  Predstavlja temelj za različite zdravstveno-statističke analize  Sudsko-medicinski dokaz sprovedinih postupaka  Indikator kvaliteta rada zdravstvene službe  Baza podataka za naučna istraživanja Osnovnu medicinsku dokumentaciju čine: zdravstveni karton, istorija bolesti, temperaturno-terapijsko-dijetetska lista, karton o potrošnji lekova, karton vakcinacije, otpusna lista sa epikrizom, protokol bolesnika, protokol za registrovanje rezultata medicinskog rada, protokol operisanih i umrlih, matična knjiga lica smeštenih u stacionarnoj zdravstvenoj ustanovi, lista anestezije.

12

Postoje i pomoćna sredstva za vođenje evidencija, a to su: registar kartoteke, dnevna evidencija o posetama i radu, tekuća evidencija o utvrđenim stanjima i oboljenjima, dnevna evidencija o kretanju bolesnika u stacionaru. Metode delimičnog posmatranja su anketa i statistički eksperiment. Anketa (upitnik) je izvor podataka ili merni instrument sačinjen od pitanja koja su odštampana na papiru ili na drugom pogodnom medijumu, najčešće računaru. Upitnik je namenjen prikupljanju podataka, ispitivanju stavova i ponašanja kod manje grupe ispitanika. U pripremi ankete potrebno je izvršiti dobru selekciju ispitanika koji će biti anketirani. Na početku upitnika mora da se naglasi svrha anketiranja, ko sprovodi anketu, da li je anonimna ili nije. Pitanja koja se postavljaju mogu biti otvorenog ili zatvorenog tipa. Kod otvorenog tipa pitanja ispitanik sam piše svoj odgovor, a kod zatvorenog tipa ispitanik zaokružuje ili na neki drugi način označava jedan od ponuđenih odgovora. Na kraju ankete potrebno je ostaviti prostor za primedbe i sugestije ispitanika. Pravila prilikom formiranja ankete su sledeća: pitanja treba da budu kratka, jasna, precizna, da nisu dvosmislena, da ne navode na odgovor. Aneketa treba da bude primerena intelektualnom nivou ispitanika i ne sme da bude predugačka. Anketa može biti sprovedena lično, slanjem putem pošte ili elektronske pošte, postavljena na veb sajtu.

2.4. Metode sređivanja podataka Prikupljeni podaci predstavljaju sirov materijal koji se ne može podvrgnuti statističkoj analizi. Ovako prikazani podaci predstavljaju osnovnu empirijsku seriju, gde su vrednosti obeležja prikazane redom kako su prikupljane. Potrebno je ove nesređene podatke urediti po nekom kriterijumu čime se formira osnovna serija, najčešće se podaci sređuju po veličini. Institut za javno zdravlje sproveo je anketu među ženama starosti 30–40 godina koliko puta godišnje odlaze na kontrolne ginekološke preglede. Dobijeni su sledeći podaci: 0034224310132443201224302 1423102212321012131024331 Na osnovu ovako prikazanih podataka nismo u mogućnosti da formiramo sliku o navikama žena određenog uzrasta da posećuju ginekologa. Kako bi zaključili kakve su navike žena potrebno je prvo srediti podatke po veličini. 0000000011111111111222222 2222222233333333334444444 Nakon sređivanja podataka po veličini potrebno je sažeti podatke u vidu proste (osnovne) distribucije frekvencije. Distribucija frekvencije predstavlja takvu statističku seriju gde se vrednosti obeležja upisuju u jednu kolonu, a učestalost tj. frekvencije tih vrednosti u drugu kolonu. Dakle, distribucija frekvencije pokazuje kako je raspoređen

13

broj jedinica posmatranja po pojedinim vrednostima obeležja. Za gore pomenute podatke formirana je prosta distribucija frekvencije. broj poseta 0 1 2 3 4 Σ

f 8 11 14 10 7 50

Na osnovu ovako sređenih podataka može se zaključiti da najveći broj žena posećuje ginekologa dva puta godišnje. Način sređivanja podataka zavisi od tipa obeležja. Atributivna i numerička diskontinuirana obeležja predstavljaju se prostom distribucijom frekvencije, a numerička kontinuirana obeležja se predstavljaju distribucijom frekvencije sa klasnim (grupnim) intrevalima. Distribucija frekvencije sa klasnim (grupnim) intervalima određena je brojem intervala, veličinom intervala i granicama intervala. Osim toga, potrebno je voditi računa o tome da intervali budu međusobno jednaki, jer se time omogućava međusobno upoređivanje grupa. Broj intervala označava se sa K i određuje se Sturgesovom formulom. K = 1+3,32192 log10N, log10N predstavlja logaritam ukupnog broja jedinica posmatranja (N) za osnovu 10. Podsetimo, logaritam nekog broja (u ovom slučaju N) predstavlja vrednost kojom treba stepenovati osnovu (u ovom slučaju 10) da bi se dobio taj broj. Veličina intervala određuje se po formuli: Veličina intervala =

X max  X min K

Treba voditi računa da granice intervala budu jasne i precizne, čime se jasno pokazuje kom intervalu pripada vrednost posmatranog obeležja, zatim, mora se voditi računa da kraj jednog intervala ne bude i početak drugog, jer se time izbegava situacija da se ne zna kom intervalu pripada ispitivana vrednost. Kod 30 bolesnika određivane su vrednosti glikemije (šećera u krvi) u mmol/L i dobijene su sledeće vrednosti: 8,6 8,4 13,7

14

7,7 9,4 9,0

6,2 6,9 6,6

6,6 12,3 11,4

8,0 13,1 11,0

9,3 11,9 8,1

7,3 10,5 7,3

8,5 9,2 13,9

10,9 12,6 12,1

11,1 11,4 8,0

Na osnovu prikupljenih podataka nije moguće doneti zaključak o vrednosti glikemije kod ispitivanih bolesnika. Stoga je potrebno srediti i sažeti podatke u vidu ditribucije frekvenicije sa klasnim (grupnim) intervalima. Potrebno je odrediti broj intervala: K = 1+3,32192 log10N K = 1+3,32192 log1030 = 1+3,321921,48 = 5,91 ≈ 6 Veličina intervala =

X max  X min 13,9  6,2 = =1,28 ≈ 1,3 K 6

Za gore prikazane podatke potrebno je formirati distribuciju frekvencije sa 6 intervala, gde je veličina intervala 1,3. Glikemija 6,2 – 7,5 7,5 – 8,8 8,8 – 10,1 10,1 – 11,4 11,4 – 12,7 12,7 – 14,0 Σ

f .... .... .... .... .... .... ....

Ovakav način formiranja intervala nije ispravan, jer dolazi do preklapanja vrednosti. U datom primeru, postavlja se pitanje u koji interval uvrstiti vrednost od 11,4? Glikemija 6,20 – 7,49 7,50 – 8,79 8,80 – 10,09 10,10 – 11,39 11,40 – 12,69 12,70 – 13,99 Σ

f 6 7 4 4 6 3 30

Ovako formirana distribucija frekvencije sa klasnim intervalima je ispravna i pokazuje da najveći broj bolesnika ima vrednost glikemije između 7,5 – 8,79 mmol/L.

15

2.5. Prikazivanje podataka Nakon sređivanja podataka potrebno je iste prikazati što jasnije i preciznije. Prikazivanje podatka može biti tabelarno i grafički.

2.5.1. Tabelarno prikazivanje podataka Tabela je prikaz podataka sastavljen od redova i kolona. Svaka tabela mora da ima naslov, zaglavlje i predkolonu. Naslov tabele SUMA REDOVA

ZAGLAVLJE PREDKOLONA Polje SUMA KOLONA

Tabele mogu biti proste, složene i kombinovane. Proste tabele prikazuju samo jednu statističku seriju. U tabeli 1 je prikazan broj stanovnika u periodu od 2003. do 2007. godine. Tabela 1. Broj stanovnika u Srbiji u periodu 2003-2007. godine Godina 2003. 2004. 2005. 2006. 2007.

Br. stanovnika 7532613 7463157 7440769 7411569 7381579

Složene tabele prikazuju više statističkih serija. U tabeli 2 prikazani su podaci o broju stanovnika, broju živorođenih i broju mrtvorođenih u Nišavskom regionu u periodu od 2003. do 2007. godine, što predstavlja prikazivanje tri statističke serije u određenom periodu. Tabela 2. Vitalna statistika u Nišavskom regionu u periodu 2003-2007. godine Godina 2007. 2006. 2005. 2004. 2003.

16

Br. stanovnika 376946 378059 379076 379829 380976

Živorođeni 3425 3558 3550 3691 3603

Mrtvorođeni 21 23 23 24 19

Kombinovane tabele prikazuju serije podataka dobijenih ukrštanjem dva ili više obeležja. Tabela 3. Broj obolelih kod vakcinisanih i nevakcinisanih muškaraca i žena Oboleli Muškarci Žene 345 273 673 652 1018 925

Vakcinisani Nevakcinisani Σ

Zdravi Muškarci Žene 567 534 321 283 888 817

Σ 1719 1929 3648

2.5.2. Grafičko prikazivanje podataka Grafičko prikazivanje podataka nudi upadljivije i jasnije utvrđivanje razlika među prikazanim serijama podataka. Grafikoni predstavljaju vizuelnu ilustraciju tabela, ali nisu njihova zamena, već dopuna. Nedostatak grafikona je što njihova konstrukcija zavisi od postavljene srazmere, drugi nedostatak što ponekad u istoj razmeri nije moguće prikazati sve vrednosti, npr. najmanje i najveće vrednosti. Grafikoni se dele na tačkaste, linijske i površinske. Kod tačkastog dijagrama tačke predstavljaju parove vrednosti dva obeležja u pravouglom koordinatnom sistemu kako bi se prikazao odnos između ovih obeležja kod svih jedinica posmatranja. Na x-osu (apscisu) možemo naneti kako različite modalitete (kategorije) nekog atributivnog obeležja, tako i različite vrednosti nekog numeričkog obeležja. Na y-osu (ordinatu) nanosimo numeričke vrednosti drugog obeležja. Osim podataka u vidu tačaka, na ovom dijagramu se može prikazati i regresiona linija tj. prava koja najbolje odražava međusobni odnos između posmatranih obeležja.

Telesna masa (kg)

100 80 60 40 20 0 155

160

165

170

175

180

185

190

195

Telesna visina (cm)

Međuzavisnost između telesne visine i telesne mase kod 20 ispitanika Linijski dijagrami se dele na: poligon i kriva frekvencije, vremenski linijski dijagram, kumulativni i polarni dijagram.

17

Kriva frekvencije koristi se za kontinuirana obeležja, na apscisu se nanose mali intervali obeležja, formira se niz tačaka, čijim spajanjem se formira kriva. U statistici je najpoznatija i najviše se primenjuje Gausova kriva.

Gausova kriva Vremenski linijski dijagram prati jedno ili više obeležja kroz vreme. Na apscisu se nanosi vreme, a na ordinatu vrednosti obeležja. Upotrebljava se za praćenje trenda. 382000 381000 380000 379000 378000 377000 376000 375000 374000

2003

2004

2005

2006

2007

Broj stanovnika u Nišavskom regionu u periodu 2003-2007. godine Površinski dijagrami se dele na: štapićasti dijagram, histogram, kružni dijagram i kartogram. Štapićasti dijagram se sastoji od stubića iste širine čija visina predstavlja frekvenciju različitih modaliteta atributivnih obeležja ili različitih vrednosti diskontinuiranih numeričkih obeležja. Između susednih stubića ostavlja se malo rastojanje.

18

Nivo uhranjenosti 100 studenata medicine Histogram je tip površinskog dijagrama kojim se prikazuju numerička kontinuirana obeležja. Sastoji se od spojenih stubića, gde širina stubića predstavlja širinu klasnog intervala, a visina frekvenciju. Ukoliko se spoje sredine stubića formira se poligon frekvencije.

Histogram frekvencija za visinu 100 studentkinja Kružni dijagrami se koriste za prikazivanje delova neke strukture. Ceo krug predstavlja 100% strukture.

Zastupljenost pušenja kod odraslog stanovništva Srbije Kartogrami su dijagrami po geografskoj karti, gde se za svaki region ili područje upisuje vrednost ispitivane pojave.

19

2.6. Primenjena statistika u MS Excelu Unos statističkih podataka Unos podataka, tj formiranje datoteke, prvi je korak u radu s podacima dobijenim u nekom istraživanju. Ispravno formiranje datoteke, nužan je korak za dalju analizu unetih podataka. Kada se pokrene program Excel, na ekranu se pojavi radni list (Sheet ili Spreadsheet), u obliku tabele. Svaki radni list se sastoji od redova označenih brojevima i kolona označenih slovima. Radni listovi čine radnu knjigu (Book), unutar koje se smešta celokupna datoteka. Najmanja jedinica, definisana presekom reda i kolone, naziva se ćelija (Cell). Pri unosu podataka u Excel, treba imati na umu sledeće: 1. U jedan red se unose podaci za jednog ispitanika; 2. U jednu kolonu se unose podaci za jednu varijablu (obeležje). U prvi red se unose nazivi varijabli. 3. Kod atributivnih varijabli, modalitete (kategorije) je potrebno obeležavati brojevima (npr. muški pol=1, ženski pol=2) 4. Ako je vrednost numeričkog obeležja „0“ ne ostavljati praznu ćeliju, već upisati „0“. 5. Kod unošenja decimalnih brojeva, potrebno je koristiti zarez za razdvajanje decimala, a ne tačku. Dokaz da je broj pravilno unešen je da se on po automatizmu ravna desno u ćeliji. Podaci koji se automatski ravnaju levo u ćeliji tretiraju se kao tekst i izuzimaju se iz proračuna. Grupisanje atributivnih obeležja Grupisanje atributivnih (kategorijskih) varijabli vrši se prikazivanjem u tabelama, preko apsolutnih i relativnih frekvencija. Najbolje objašnjenje ćemo prikazati kroz primer: Primer: U ambulantama u gradu Nišu je analizirano kojim se danima najveći broj pacijenata javlja lekaru. Sakupljene su informacije iz 20 ambulanti i dobijeni sledeći podaci: Ambulanta 1 2 3 4 5 6 7 8 9 10

20

Dan Pon Uto Sreda Četvrtak Sreda Petak Subota Nedelja Ponedeljak sreda

Ambulanta 11 12 13 14 15 16 17 18 19 20

Dan Petak Subota Nedelja Ponedeljak sreda Sreda Četvrtak Sreda Sreda sreda

Rešenje: Dobijene podatke unesemo u list MS Excela na sledeći način:

Procedura koja se koristi za grupisanje podataka se naziva Histogram i ona pored grupisanja omogućava i grafičko prikazivanje podataka. Postupak je sledeći: U glavnom meniju kliknemo na Tools, iz padajućeg menija izaberemo opciju Data Analysis, u radnom prozoru označimo Histogram i kliknemo na OK. Napomena: Ukoliko se opcija Data Analyse ne nalazi u Tools, treba je uključiti tako što se klikne na Tools/Add-Ins i označi Analysis ToolPak-VBA. Na ekranu se dobija sledeći prozor:

U okvir Input Range unosimo adrese ćelija u kojima se nalaze sirovi podaci (B1:B21), a u Bin Range unosimo adrese ćelija sa oznakama modaliteta obeležja koje

21

smo sami upisali (C1:C8). Označimo opciju Labels, jer smo uneli i adrese ćelija u kojima se nalaze naslovi (B1 i C1). Kliknemo na OK i dobijemo sledeći ispis: Dani 1 2 3 4 5 6 7 More

Frequency Cumulative % 3 15.00% 1 20.00% 8 60.00% 2 70.00% 2 80.00% 2 90.00% 2 100.00% 0 100.00%

Dani su prikazani brojevima od 1 do 7, gde je ponedeljak=1, a nedelja=7. Sledeća kolona predstavlja apsolutne frekvencije, a treća kolona kumulativni procenat. Ukoliko je potrebno da pored apsolutnih frekvencija izračunamo i relativne potrebno je uraditi sledeće: U ćeliji ispod druge kolone izračunamo sumu. Novu kolonu označimo sa %, što nam ukazuje na procentualnu (relativnu) strukturu. U ćeliju ispod toga zadamo formulu za izračunavanje =F13/$F$21*100, čime zapravo apsolutnu vrednost frekvencije, delimo sa sumom i množimo sa 100. Znak $ unosimo kako bismo fiksirali ćeliju sa kojom delimo. Zadatu formulu u prvoj ćeliji kopiramo do poslednje i tako zadamo izračunavanje relativne strukture za sve vrednosti.

Grafičko prikazivanje statističkih podataka Grafičko prikazivanje rezultata je jako bitan element statističke analize, jer između ostalog pruža najeksplicitniji uvid u rezultate rada, i omogućava nam brzu i lako razumljivu sliku o analiziranim pojavama. Excel je svakako jedan od najboljih i najlakših za korišćenje programa za grafičko prikazivanje.

22

Primer: U decembarskom ispitnom roku statistiku je polagalo 200 studenata i rezultati su bili sledeći: Ocena iz statistike Broj studenata 5 10 6 20 7 40 8 60 9 35 10 35 Potrebno je dobijene podatke predstavi grafički (kružnim dijagramom). Rešenje: Podatke iz tabele unesemo u Excel kao na slici. Kliknemo na ikonu Chart Wizard na liniji sa alatima i otvara se sledeći radni prozor:

Izaberemo Pie (pitica) iz menija Chart Type i kliknemo Next. Otvara se sledeći prozor:

23

Označimo Columns i u Data Range unesemo opseg ćelija koje sadrže potrebne podatke. Klikom na Next dobili bi dijaloge za definisanje naslova tabele i drugih ispisa, ali se mi zadržavamo na ovom koraku i klikom na Finish dobijamo krajnji oblik kružnog dijagrama:

Na isti način je moguće kreirati i druge vrste grafika, štapićaste, histograme itd, izabirom tipa grafika u prozoru Chart Type, što će praktično i biti demonstrirano na vežbama iz medicinske statistike i informatike.

24

Zadaci za vežbanje 1. Kod 30 žena određivan je nivo jednog hormona. Dobijena su sledeće vrednosti: 25,3 18,6 20,4 15,0 27,8 19,4 11,0 19,4 18,6 12,5 23,5 14,0 19,8 16,7 17,2 22,4 23,5 20,0 18,7 26,6 18,8 15,4 19,5 27,0 16,8 21,0 22,4 14,7 19,5 21,4 Srediti podatke u vidu distribucije frekvencije sa klasnim intervalima i prikazati grafički. 2. Na klinici za plastičnu hirurgiju registrovane su opekotine različitog stepana u toku jedne godine. Dobijeni su sledeći podaci: I III II IV I I II III II II III IV IV I I I II III I II II II II III III I I I I I II III I I II I I I III II II I II I I I II I I II II I I III II II II I I I II III I

Podatke srediti u vidu proste distribucije frekvencija, grafički prikazati podatke u vidu štapićastog i kružnog dijagrama. 3. Dati su podaci o starosti pacijenata obelelih od hepatitisa A u Niškom regionu u toku 2008. godine. 33 34 29

31 43 35

37 19 41

24 47 19

32 30 48

43 27 37

34 34 28

39 29 38

27 33 41

37 38 33

Podatke srediti u distribuciju frekvencije sa klasnim intervalima, prikazati podatke tabelarno i grafički. 4. U tabeli je prikazan broj prekida trudnoće u Srbiji u periodu od 2000. do 2007. godine. Godina Broj prekida trudnoće

2000.

2001.

2002.

2003.

2004.

2005.

2006.

2007.

23749

22356

24897

23678

25603

26645

25665

24273

Prikazati podatke grafički i ocenite trend prekida trudnoće u datom periodu. 5. U mikrobiološkoj laboratoriji praćen je broj deca školskog uzrasta sa urednim nalazom brisa grla. Utvrđeno je da je 130 devojčica imalo uredan nalaz od ukupno 200 pregledanih. Od 250 dečaka 176 imalo je uredan nalaz. Prikazi podatke u vidu tabela kontigencije i konstruiši grafikon.

25

3. RELATIVNI BROJEVI U procesu prikupljanja podataka i njihovog tumačenja često dolazi do nemogućnosti poređenja podataka i pravilnog zaklučivanja ukoliko su podaci prikazani u vidu apsolutnih brojeva. Apsolutni brojevi se dobijaju kao osnovni izvorni podaci, a do njih se dolazi prebrojavanjem ili merenjem jedinica posmatranja, odnosno grupisanjem prikupljenih vrednosti numeričkih obeležja neke masovne pojave. Obično su dovoljni za neku manje opštu analazu, ali za savremenu statističku analizu potrebno je apsolutne brojeve prevesti u relativne. Apsolutnim brojevima se prikazuje neka pojava i njena struktura, ali ne postoji mogućnost adekvatnog vremenskog i prostornog poređenja. Za takav vid statističke analize koriste se relativni brojevi. Relativni broj predstavlja odnos dva apsolutna broja, odnosno količnik dva apsolutna broja. Relativni broj =

A B ili B А

Relativnim brojevima je apsolutni broj samo početna, odnosno polazna vrednost. Relativni brojevi su pogodniji u statističkoj analizi jer se njima mogu vršiti poređenja dve različite pojave bez obzira na apsolutne vrednosti iz kojih su apsolutni brojevi izvedeni. Uz pomoć relativnih brojeva možemo porediti dve pojave koje su raspoređene kroz vreme ili na različitim prostorima. Npr. natalitet bez obzira na broj stanovnika određenog područja ili natalitet u različitim regionima u zemlji ili između različitih zemalja. Relativni brojevi nisu zamena apsolutnim, već su njihova dopuna. Priroda ispitivane pojave, kao i logička povezanost pojava određuje koja će se vrednost naći u brojitelju, a koja u imenitelju. Brojitelj je vrednost pojave koju upoređujemo, a imenitelj vrednost pojave na osnovu koje vršimo poređenje. Relativni brojevi se dele na: 1. Indekse strukture 2. Koeficijente intenziteta 3. Indekse dinamike

3.1. Indeksi strukture Indeksi strukture pokazuju relativni odnos neke pojave u odnosu na celinu. Ovi relativni brojevi se prikazuju procentualno (0 – 100%) ili u vidu proporcije (0 – 1). Pokazuju sastav jedne celine, odnosno iz kojih i kavih delova se sastoji statistička masa ili posmatrani skup, ili kakvi su količinski odnosi pojedinih delova statističke mase u odnosu na celinu ili posmatrani osnovni skup. Indeks strukture se izračunava na sledeći naćin: Indeks strukture =

26

deo mase  100 celina

Tabela 1. Stanovništvo u Republici Srbiji po dobnim grupama i polu prema proceni za 2007. godinu Pol

Svega

19 Muško 3588957 815288 Žensko 3792622 773802 Ukupno 7381579 1589090

20-24 255127 245415 500542

25-29 260965 252413 513378

30-34 255674 253124 508798

Starost (godine) 35-39 40-44 45-49 237651 238686 256981 239408 244762 265481 477059 483448 522462

50-54 292754 301678 594432

55-64 65 438775 537056 482291 734249 921066 1271304

Tabela 1 pokazuje broj stanovnika u Srbiji po dobnim grupama prema proceni iz 2007. godine. Ova tabela je puna podataka koji su teški za interpretaciju i iz nje se ne mogu doneti važni zaključci. Zato se prelazi na izračunavanje relativnih brojeva koji će pokazati udeo stanovnika prema starosnoj strukturi i prema polu. 19 20-24

25-29 30-34 35-39 40-44 45-49 50-54 55-64 65 

1589090  0, 2153  100  21,53% 7381579 500542  0,0678  100  6,78% 7381579 513378  0,0695  100  6,95% 7381579 508798  0,0689  100  6,89% 7381579 477059  0,0646  100  6, 46% 7381579 483448  0,0655  100  6,55% 7381579 522462  0,0708  100  7,08% 7381579 594432  0,0805  100  8,05% 7381579 921066  0,1248  100  12, 48% 7381579 1271304  0,1722  100  17, 22% 7381579 100%

Tabela 2. Starosna struktura stanovništva Srbije (procentualno izražena)

Pol Muško Žensko Ukupno

19 11,04 10,48 21,53

20-24 3,46 3,32 6,78

25-29 3,54 3,42 6,95

30-34 3,46 3,43 6,89

Starost 35-39 40-44 3,22 3,23 3,24 3,32 6,46 6,55

45-49 3,48 3,60 7,08

50-54 3,97 4,09 8,05

55-64 5,94 6,53 12,48

65 7,28 9,95 17,22

27

Na osnovu izračunatih indeksa strukture može se zaključiti da je procentualno najzastupljenije stanovništvo starosti do 19 godina, dok je najmanje zastupljena starosna kategorija od 35-39 godina. Na ovaj način određena dobna struktura stanovništva može biti prikazana tabelarno (tabela 2) i grafički. Grafički se najčešće struktura neke pojave prikazuje površinskim kružnim dijagramom. Jedan procenat strukture na grafiku predstavlja 3,6° ugla, što znači da se dobijeni procenti množe sa 3,6 i dobijaju se vrednosti ugla koji predstavlja deo određene strukture na kružnom dijagramu. 17,22%

21,53% <19 20-24 25-29 30-34

12,48%

6,78%

35-39 40-44 45-49

6,95% 8,05%

50-54 55-64 >65

6,89%

7,08% 6,55%

6,46%

Grafikon 1. Dobna struktura stanovništva u Srbiji

3.2. Koeficijenti intenziteta Koeficijent intenziteta (stopa) je relativni broj koji predstavlja odnos dve masovne pojave, koje su na neki način međusobno povezane. U takozvanoj vitalnoj statistici masovna pojava koja predstavlja baznu vrednost uglavnom je ukupan broj stanovnika Srbije u određenom vremenskom trenutku. Stope u epidemiologiji i socijalnoj medicini imaju široku primenu jer se njima iskazuje kretanje broja stanovnika, rasprostranjenost i učestalost oboljenja, invalidnost, povređivanje itd. Relativni odnos, tj. broj koji se dobije poređenjem dve masovne pojave množi se određenim koeficijentom. Vrednost koeficijenta zavisi od veličine dobijenog relativnog broja. Što je brojčana vrednost manja koeficijent je veći. Koeficijenti:  x 100 = procenti  x 1000 = promili  x 10000 = decili  x 100000 = decimili

28

Pokazatelji rađanja i umiranja

Osnovni pokazatelji rađanja i umiranja populacije su: Natalitet =

br. živorođene dece ×1000 br. stanovnika

Mortalitet =

ukupan br. umrlih ×1000 br. stanovnika

Prirodni priraštaj = Natalitet – Mortalitet Prirodni priraštaj =

Fertilitet =

br. živorođenih - br. umrlih ×1000 br. stanovnika

br. živorođene dece ×1000 br. žena starosti 15-45 godina

Specifični mortalitet =

Mortalitet odojčadi =

Letalitet =

br. umrlih od neke bolesti ×1000 br. stanovnika br. umrle odojčadi u toku godine ×1000 br. živorođene dece u istoj godini

br. umrlih od određene bolesti ×100 ukupan br. obolelih od iste bolesti

Pokazatelji oboljevanja stanovištva

Analiza zdravstvenog stanja stanovništva neke države ili nekog regiona, pored pokazatelja umiranja, uglavnom se bazira na pokazateljima oboljevanja stanovništva. Na osnovu ovih podataka vrši se organizacija i unapređenje zdravstvene zaštite. Morbiditet predstavlja oboljevanje stanovnika od neke bolesti u datom trenutku. Morbiditet može biti opšti i specifični kada se računa za neku određenu bolest. Radi se o stopi koja nije precizno definisana. Zato se danas najčešće koriste incidencija i prevalencija. Incidencija je mera učestalosti nekog oboljenja. Ona pokazuje broj novootkrivenih slučajeva određene bolesti u toku godine u odnosu na ukupan broj stanovnika sredinom te godine. Incidencija =

br. novoregistrovanih od nekog oboljenja u toku godine ×1000 ili 10.000 ili 100.000 br. stanovnika sredinom godine

29

Prevalencija se smatra stopom rasprostranjenosti neke bolesti. Ona predstavlja ukupan broj obolelih na nekom području od određene bolesti u odnosu na ukupan broj stanovnika sredinom godine. Prevalencija =

br. ukupno obolelih od neke bolesti na dan 31.12. ×1000 ili 10.000 ili 100.000 br. stanovnika sredinom godine

3.3. Indeksi dinamike Obzirom da većina pojava vezanih za zdravstveno stanje stanovništva pokazuje izrazitu varijabilnost, za praćenje promena neke pojave koje nastaju kroz vreme koriste se indeksi dinamike. U zavisnosti da li je bazna vrednost tj. vrednost u odnosu na koju se prati dinamika neke promene stalna ili promenljiva, ovi indeksi se dele na bazične i lančane. Bazna vrednost se izjednačava sa 100%. Vrednosti indeksa dinamike manje od 100% pokazuju da se pojava smanjuje, a ako su veće od 100% pokazuju da se promena povećava. Bazični indeksi imaju stalnu baznu vrednost u odnosu na koju se porede sve ostale vrednosti u uzastopnim vremenskim intervalima. Bazični indeksi pokazuju razvoj neke pojave kroz vreme. Kao stalna baza ne mora se uvek uzeti stanje pojave iz prvog vremenskog perioda, već bi trebalo uzeti stanje iz onog perioda kada pojava pokazuje „normalnost“ i stabilnost. Lančani indeksi nemaju stalnu bazu, tj. bazna vrednost je uvek vrednost neke pojave iz prethodnog vremenskog perioda. Dakle, lančani indeksi pokazuju tempo razvoja pojave, odnosno brzinu kretanja posmatrane pojave. Šematski je prikazana razlika u izračunavanju baznih i lančanih indeksa neke pojave u periodu od 2000. do 2008. godine.

Lančani indeksi

30

2008

2007

2006

2005

2004

2003

2002

2001

2000

Bazični indeksi

Primer: U tabeli je prikazan broj obolelih od infarkta miokarda u Srbiji u periodu od 2005. do 2008. godine po polu. Proceniti kakav je razvoj oboljevanja od infarkta miokarda tokom vremena i kakav je tempo razvoja ove bolesti?

God. Muš.

Bazični indeks

Lančani indeks

Žen.

Bazični indeks

Lančani indeks

2005 4211

100%

-

2871

100%

-

2006 3338 2007 2151 2008 2073

3338 4211

2151 4211 2073 4211

 100  79, 3%

 100  51,1%  100  49, 2%

3338 4211 2151 3338 2073 2151

 100  79, 3% 4317  100  64, 4% 2946  100  96, 4% 3045

4317 2817 2946 2871 3045 2871

 100  150, 4%  100  102, 6%  100  106,1%

4317 2817 2946 4317 3045 2946

 100  150, 4%  100  68, 2%  100  103, 4%

Na osnovu izračunatih bazičnih indeksa može se zaključiti da je kod muškaraca oboljevanje od infarkta miokarda bilo u konstantnom opadanju u posmatranom periodu, da bi u 2008. godini broj obolelih iznosio 49,2% od broja u 2005. godini. Lančani indeksi pokazuju da je najveći relativni pad broja obolelih nastupio između 2006. i 2007. godine i to za 35,6% (100-64,4=35,6%), a najmanje relativno umanjenje broja obolelih je nastupilo između 2007. i 2008. godine i to za 3,6%. Kod žena bazični indeksi pokazuju porast broja obolelih u posmatranom periodu. Lančani indeksi ukazuju da je relativni porast broja obolelih žena nastupio između 2005. i 2006. godine i to za 50,4%, a niži porast je evidentiran između 2007. i 2008. godine i to za 3,4%, dok je između 2006. i 2007. godine broj obolelih žena opao za 31,8%.

31

Zadaci za vežbanje

1. U tabeli 1 su prikazani osnovni podaci vitalne statistike u Srbiji u periodu od 2003–2007. godine. Godina Br. stanovnika Živorođeni Umrli Mrtvorođeni Umrla odojčad 2007 7.381.579 68.102 102.805 369 484 2006 7.411.569 70.997 102.884 365 525 2005 7.440.769 72.180 106.771 361 579 2004 7.463.157 78.186 104.320 419 633 2003 7.532.613 79.025 103.964 411 711  Izračunati natalitet, mortalitet i prirodni priraštaj u 2007. godini.  Izračunati smrtnost odojčadi u 2005.  Odrediti kada je bila najniža stopa smrtnost odojčadi u odnosu na 2003. godinu, i kakav je bio tempo smrtnosti u ispitivanom periodu.

2. Ako je ukupan broj žena u reproduktovnom periodu od 19–45 godina 1.235.122 u 2007. godini na osnovu podataka iz tabele 1 odrediti fertilitet. 3. Preme podacima od 31.12.2007. godine u primarnoj zdravstvenoj zaštiti u Nišu i Novom Sadu bilo je zapošljeno doktora medicine, stomatologa i farmaceuta u zdravstvenim ustanovama: Opšta Specijalisti Stomatolozi Farmaceuti medicina medicine Niš 99 1.254 170 93 Novi Sad 180 1.182 133 89 Grad

Ako je sredinom 2007. godine broj stanovnika u Nišu bio 239.645, a u Novom Sadu 319.259 izračunati gde su zdravstveni radnici bili opterećeniji brojem potencijalnih korisnika? 4. U Srbiji je u 2007. godini od infarkta miokarda obolelo 5.097, a umrlo 1.139 osoba. Ako je broj stanovnika sredinom godine bio 7.381.579 izračunati specifični mortalitet i letalitet. 5. Prema podacima populacionog registra za dijabetes u Srbiji je u 2007. godini evidentirano 16.606 novoobolelih osoba svih uzrasta od dijabetesa tipa 2, dok je ukupan broj obolelih iznosio 398.764. Izračunati incidenciju i prevalenciju dijabetesa, ako znamo da je broj stanovnika sredinom 2007. godine bio 7.381.579.

32

4. MERE CENTRALNE TENDENCIJE – SREDNJE VREDNOSTI Mere centralne tendencije imaju za cilj da odrede centar osnovnog skupa. Jednostavnije rečeno, ove mere treba da daju informaciju o onome što je tipično, zajedničko za sve elemente (jedinice) jednog skupa. Vrednosti distribucija frekvencija (serija) sažimamo toliko, da ih svodimo na jednu jedinu vrednost. Postoje više mera centralne tendencije i svaka ima svoje prednosti i nedostatke. Dele se na: - potpune (matematičke): aritmetička sredina, harmonijska sredina i geometrijska sredina i - položajne: medijana i mod.

4.1. Aritmetička sredina – prosek Najčešće korišćena mera centralne tendencije je aritmetička sredina ili prosek. Njena definicija je jednostavna: suma vrednosti podataka podeljena brojem podataka. Matematička definicija aritmetičke sredine je:

x=

x1 + x 2 + x 3 + ... + x n Σx = n n

gde je: x - aritmetička sredina (x - bar), x1 , x 2 , x 3 , ... x n - vrednosti obeležja kod pojedinih ispitanika, n - broj podataka ili veličina uzorka i  - grčko veliko slovo sigma, koje označava zbir ili sumu (označava sabiranje pojedinačnih vrednosti obeležja x).

Primer: Telesna masa petoro slučajno izabrane novorodjenčadi iznosila je: 3,2; 4,8; 3,7; 5,0 i 4,3 kg. Kolika je prosečna težina ove grupe novorođenčadi? Rešenje: Koristeći navedenu opštu formulu i opšte simbole neophodno je prvo sabrati vrednosti: x1=3,2; x2=4,8; x3=3,7; x4=5,0 i x5=4,3 kg, pa njihov zbir podeliti sa 5 opservacija u uzorku (veličina uzorka: n=5). Dakle, aritmetička sredina telesne mase ove grupe novorođenčadi je:

x

3, 2  4,8  3,7  5,0  4,3  4, 2kg 5

Prosečna telesna masa pri rođenju ove grupe novorođenčadi iznosi 4,2 kg. Dati način izračunavanja aritmetičke sredine, kao centralne vrednosti skupa ili uzroka, može da se primeni samo kod malih uzoraka i kada su podaci dati u vidu empirijske serije, odnosno kada nisu sređeni u vidu distribucije frekvencija. Aritmetička sredina za prostu distribuciju frekvencija izračunava se na taj način što se vrednosti distribucije (x) množe (ponderišu) svojim odgovarajućim

33

frekvencijama (f), pa se dobijeni zbir proizvoda (fx), podeli sa ukupnom frekvencijom. Matematička definicija ponderisane aritmetičke sredine je:

x=

f1  x1 + f 2  x 2 + f 3  x 3 + ... + f n  x n Σf  x = f f1 + f 2 + f 3 + ... + f n

gde je f - broj elemenata uzorka. Primer: Izračunajmo prosek članova po jednom domaćinstvu u jednoj zgradi, na osnovu podataka tabele br. 1. Radi pravilnog postupka i dobijanja tačnih vrednosti treba prvo formirati radnu tabelu. Radna tabela za izračunavanje ponderisane aritmetičke sredine Broj članova domaćinstva Broj domaćinstava fx x f 1 8 18=8 2 11 2  11 = 22 3 29 3  29 = 87 4 11 4  11 = 44 5 4 5  4 = 20 63 181  Na osnovu podataka iz radne tabele sledi:  fx = 181 = 2,87 x=  f 63 Dakle, navedena zgrada sa 63 domaćinstva u proseku je imala 2,87 člana po jednom domaćinstvu. Pri izračunavanju aritmetičke sredine, često se dobijaju apsurdne vrednosti, kao 2,87 člana po domaćinstvu (gornji primer), ili 5,6 pregleda po jednom korisniku, 2,3 dijagnoze po jednom bolesniku itd. Međutim, ove se vrednosti u statističkim izračunavanjima upotrebljavaju kao takve, pa treba izbegavati zaokruživanje na cele brojeve. Aritmetička sredina za distribuciju frekvencije sa grupnim intervalima izračunava se po sličnom postupku, s tim što se grupni intervali zamene svojim aritmetičkim sredinama ( x i ), pa se te vrednosti množe odgovarajućim frekvencijama. Aritmetička sredina grupnog intervala se određuje na taj način, što se saberu početna (donja) vrednost intervala i završna (gornja) vrednost intervala, pa se dobijeni zbir podeli sa 2. Matematička definicija aritmetičke sredine za distribuciju frekvencija sa grupnim intervalima je: f  x + f  x 2 + f 3  x 3 + ... + f n  x n Σf  x i x= 1 1 2 = f1 + f 2 + f 3 + ... + f n f

gde je: x i - aritmetička sredina grupnog intervala.

34

Primer: Težina 32 učenika je data u vidu distribucije frekvencija sa grupnim intervalima, koja je predstavljena u prve dve kolone sledeće tabele. Da bi izračunali prosečnu težinu učenika potrebno je formirati radnu tabelu uvođenjem još dve kolone. Radna tabela za izračunavanje aritmetičke sredine na osnovu distribucije frekvencija sa grupnim intervalima Telesna masa u kg x 70-74,99 75-79,99 80-84,99 85-89,99 

Broj učenika f 5 8 14 5 32

f xi

xi (70+74,99)/2=72,5 (75+79,99)/2=77,5 (80+84,99)/2=82,5 (85+89,99)/2=87,5

362,5 620,0 1155,0 437,5 2575,0

Iz podataka tabele sledi:

x

fx f

i



2575,0  80,47 32

Prosečna težina učenika je 80,47 kg. Široka primena aritmetičke sredine kao mere centralne tendencije nije slučajna. Ona ne samo da je jednostavna, razumljiva i laka za računanje, već ima još mnoge poželjne osobine: 1. Može da se izračuna za bilo koji niz intervalnih podataka, što znači da uvek postoji; 2. Bilo koji niz podataka ima samo jednu aritmetičku sredinu, što znači da je ona jedinstvena vrednost bilo kog niza; 3. Za njeno izračunavanje uzimaju se u obzir svi podaci, što znači da na njenu veličinu utiču sve vrednosti niza, od najmanje do najveće; 4. Suma pojedinačnih odstupanja članova statističke serije od aritmetičke sredine uvek je jednaka 0. Kao ilustraciju uzmimo pet novorođenčadi čiju smo aritmetičku sredinu već izračunali: x =4,2. n

Vrednost

xx

1 2 3 4 5

3,2 4,8 3,7 5,0 4,3

3,2-4,2=-1,0 4,8-4,2=0,6 3,7-4,2=-0,5 5,0-4,2=0,8 4,3-4,2=0,1 0



5. Zbir kvadrata odstupanja pojedinačnih vrednosti od aritmetičke sredine jednak je minimumu:

 ( x  x)

2

 min

35

Drugim rečima, zbir kvadrata odstupanja od bilo koje druge vrednosti niza, pa i od medijane i moda, kao mera centralne tendencije veći je od zbira kvadrata odstupanja od aritmetičke sredine:

 ( X  Me)

2

  (X  X )2

 ( X  Mod )   ( X  X ) 2

2

Ovo je veoma važna osobina aritmetičke sredine jer ona omogućava primenu metoda najmanjih kvadrata. Aritmetičku sredinu nema smisla računati ako raspodela nije simetrična, kada imamo mali broj podataka i kada je izražena velika varijabilnost podataka. Pored aritmetičke sredine, koja predstavlja najčešće korišćenu meru centralne tendencije, pomenućemo i harmonijsku i geometrijsku sredinu koje takođe spadaju u matematičke mere centralne tendencije. Harmonijska sredina upotrebljava se ređe i to kod serija u kojima postoje ekstremne vrednosti ili u situacijama kada su vrednosti kojima raspolažemo izražene u proporcijama ili kada su obeležja izražena u merama koje predstavljaju proporcije (na primer km/h). U tim slučajevima je harmonijska sredina tačnija mera centralne tendencije nego aritmetička sredina. Ona se računa po formuli: n 1 H  1 1 1 1 1  1 1 1 1     ...      ...   X1 X 2 X 3 X n n  X1 X 2 X 3 Xn  Iz formule možemo videti da harmonijska sredina predstavlja recipročnu vrednost aritmetičke sredine recipročnih vrednosti za koje se sredina izračunava. Harmonijska sredina je uvek manja i od geometrijske i od aritmetičke, osim ako svi članovi niza nisu jednaki. Tipičan primer, koji nije iz medicine, ali iz koga je najlakše razumeti primenu harmonijske sredine bi bio sledeći: Ako udaljenost od 200km vozač pređe vozeći u jednom smeru prosečnom brzinom od 50km/h, a u drugom smeru brzinom od 100km/h, kolika je prosečna brzina tog vozača tokom celog puta? Ona nije (50+100)/2=75km/h jer tada u obzir nije uzeto i ukupno vreme putovanja, već iznosi: n 2 2 2 H     66,7 km / h 1 1 1 1 3 0,03   X 1 X 2 50 100 100

I zaista, vozaču je trebalo 4 sata da pređe 200km vozeći 50km/h u jednom smeru i još 2 sata da pređe tih 200km vozeći 100km/h, prema tome ukupno 6 sati za 400km. Odatle je prosečna brzina iznosila 400/6=66,7km/h, što je rezultat isti kao i kada smo u formuli za harmonijsku sredinu primenili samo vrednosti dve prosečne brzine. Primer: U tri laboratorije radi se ista vrsta analize. Iz ovih laboratorija smo dobili podatke da prosečno vreme potrebno za jednu analizu u njima iznosi: u prvoj 1,20 minuta, u drugoj 0,96 minuta i u trećoj 0,60 minuta. Nismo dobili informaciju o tome koliko je analiza urađeno u kojoj laboratoriji, niti za koliko dana se navedeni podaci odnose. Potrebno je da odgovorimo na sledeća pitanja:

36

Kolika je prosečna produktivnost sve tri laboratorije izražena utroškom vremena po jednoj analizi? Koliko analiza može da se uradi u sve tri laboratorije za 8 sati (jedan radni dan)? Kada bi na ova pitanja odgovorili na osnovu izračunavanja aritmetičke sredine, rezultati bi bili sledeći: (1,20+0,96+0,60)/3=0,92 minuta iznosi prosečan utrošak vremena po jednoj analizi i 3x60x8/0,92=1562,22 analize se mogu uraditi u sve 3 laboratorije za jedan dan. Kada bi na ova pitanja odgovorili na osnovu izračunavanja harmonijske sredine, rezultati bi bili sledeći: 3 H  0,85 minuta je utrošak vremena po jednoj analizi i 1 1 1   1, 20 0,96 0,60 3x60x8/0,85=1694,12 analiza može da se uradi za jedan dan. U situaciji kada ne raspolažemo informacijom o tome koliko je dana koja od laboratorija pratila svoju produktivnost, odnosno sa koliko su analiza delili koliko minuta da bi izračunali vrednosti koje smo mi od njih dobili (1,20, 0,96 i 0,60 minuta po jednoj analizi) sa više poverenja možemo prihvatiti rezultate dobijene na osnovu izračunavanja harmonijske sredine. Geometrijska sredina se primenjuje u analizi vremenskih nizova i pomoću nje se izračunava prosečna stopa promene pojave. Kao i svaka srednja vrednost nalazi se između najveće i najmanje vrednosti niza za koji se izračunava i brojčano se razlikuje od aritmetičke sredine, osim ako svi članovi niza nisu jednaki. Geometrijska sredina je uvek manja od aritmetičke. Izračunava se kao n-ti koren iz proizvoda njegovih članova: G  n X 1  X 2  X 3  ... X n

Primer: Ako je nakon oralne primene nekog leka njegova koncentracija u plazmi u prvom satu iznosila 2 μg/mL, u drugom 9 μg/mL, a u trećem satu 18 μg/mL, onda je koncentracija u drugom satu bila 9/2=4,5 puta veća nego u prvom, a u trećem satu je bila 18/9=2 puta veća nego u drugom satu. Pitanje je koliko je puta koncentracija rasla u svakom satu? Odgovor: G  2 4,5  2  2 9  3 puta Odnos između aritmetičke, harmonijske i geometrijske sredine Date su vrednosti numeričke varijable X: 22, 35, 25, 25, 32, 28, 31, 24, 30, 34, 34, 23. Izračunajte: aritmetičku, harmonijsku i geometrijsku sredinu?

37

x

 x  343  28,58 N

G  12 22  35  25  ...  23  28, 23

12

H

n 1

x



12  27,87 0, 43055

27,87<28,23<28,58 H
4.2. Medijana Medijana spada u položajne mere centralne tendencije. Medijana je u pravom smislu centralna vrednost jer ona statistički niz deli na dva jednaka dela, od kojih jedan deo sadrži 50% vrednosti manjih od nje, a drugi 50% vrednosti većih od medijane. Uslov je da se podaci niza prvo srede po veličini od najmanje do najveće vrednosti ili obrnuto. Osnovne karakteristike medijane su: 1. U svakoj distribuciji postoji samo jedna medijana 2. Nalazi se između najmanje i najveće vrednosti 3. Na vrednost medijane ne utiču ekstremne vrednosti 4. Ona je reprezentativna mera centralne tendencije kod heterogenih skupova 5. Zbir apsolutnih odstupanja pojedinačnih vrednosti od medijane je minimalan Za neparan broj elemenata jedne serije uređenih po veličini medijana je vrednost srednjeg (centralnog) elementa serije. Njegovo mesto matematički nalazimo prema formuli:

N 1 = MMe – mesto medijane 2 Primer: Uzmimo ponovo, telesne mase pet slučajno odabrane novorođenčadi čije su telesne mase bile: 3,2; 4,8; 3,7; 5,0 i 4,3. Ako telesne mase uredimo po veličini dobijamo: n 1 2 MMe3 4 5

x 3,2 < Me 3,7 < Me 4,3Me 4,8 > Me 5,0 > Me

MMe = (5+1)/2=3 Me = 4,3 kg

Medijanu predstavlja telesna masa trećeg novorođenčeta, a njegova težina je 4,3 kg, pa je medijana: Me=4,3 kg. Dva novorođenčeta imaju manju telesnu masu, a dva veću telesnu masu od medijane.

38

Za paran niz vrednosti, medijana se određuje kao aritmetička sredina dva centralna člana. Mesta centralnih članova određuju se prema obrascima:

N  mesto prvog člana 2

N 2  mesto drugog člana 2

Primer: Dodajmo, prethodnom primeru još jedno novorođenče sa telesnom masom od 5,2 kg. Uslov je da vrednosti sredimo po veličini: N 1 2 I cen. čl.3

x 3,2 3,7 4,3

II cen. čl.4 5 6

4,8 5,0 5,2

N/2=6/2=3 mesto prvog centralnog člana Me=(4,3+4,8)/2=9,1/2=4,55kg (N+2)/2=(6+2)/2=4 mesto drugog centralnog člana

Centralne članove navedenog niza predstavljaju težine 3. i 4. novorođenčeta, a medijana je aritmetička sredina ovih telesnih masa. Kod parnog niza, 50% novorđenčadi imaju manju telesnu masu od medijane, a 50% veću. Određivanje mesta medijane i vrednosti medijane za podatke sređene u vidu distribucije frekvencije, zahteva složeniji matematički postupak, pa ćemo ovde izneti samo postupak određivanja medijane za osnovnu distribuciju frekvencija (bez klasnih intervala). Kod distribucije frekvencije, takođe, treba voditi računa da li je ukupna frekvencija paran ili neparan broj. Mesto medijane, tj. element čija vrednost predstavlja medijanu izračunava se na sledeći način:

f 2

 MeM  ako je  f paran broj

 f  1  MeM  ako je 2

 f neparan broj

Određeni element čija vrednost predstavlja medijanu pronalazimo pomoću kumulativnog zbira apsolutnih frekvencija. Primer: Uzmimo već poznatu distribuciju frekvencija domaćinstava prema broju članova: X

f

1 2 3 4 5 

8 11 29 11 4 63

Kumulativni zbir (odozgo) 8 19 48 59 63 -

Kumulativni zbir (odozdo) 63 55 44 15 4 -

39

MeM 

 f  1  63  1  32 2

2

Broj članova 32. domaćinstva predstavljaja mesto medijane. Kumulativni zbir odozgo pokazuje da se to domaćinstvo nalazi između 48 domaćinstava koja imaju tri člana, pa je Me=3 člana. I u ovom slučaju 50% domaćinstava imaju manju ili istu vrednost kao medijana, a 50% domaćinstava istu ili veću vrednost od medijane. I da na kraju rezimiramo: Medijana je grublja ocena od aritmetičke sredine. Na nju ne utiču ekstremne vrednosti niza; ona može da se izračuna i kada minimalna i maksimalna vrednost serije nisu poznate. Primenjuje se kao mera centralne tendencije kod izrazito heterogenih skupova.

4.3. Modus Mod, modus, tipična vrednost, je položajna mera centralne tendencije i to je ona vrednost obeležja ili onaj modalitet obeležja, koji ima najveću frekvenciju, najveću zastupljenost u okviru ukupne frekvencije. U primeru u kome je data distribucija frekvencija domaćinstava prema broju članova, najveću frekvenciju pokazuju domaćinstva koja imaju 3 člana. Prema tome, vrednost moda je 3 člana. Danas se kaže za Centralnu Srbiju i Vojvodinu da su tipična domaćinstva sa po 3 člana (roditelji i jedno dete). Tuberkuloza i zarazne bolesti su tipične za nerazvijene, siromašne zemlje. Kardiovaskularne bolesti i rak su tipični za razvijene zemlje. Tipično je ono što preovladava. Neke pojave mogu da imaju i dve modalne vrednosti, pa kažemo da su bimodalne. Znači, mod nije jedna jedina vrednost skupa, kao što je to aritmetička sredina. Primer: Data je distribucija frekvencija sto studenata prema visini ocene iz statistike. Ocena 5 6 7 8 9 10  f

Broj studenata 10 28 12 10 30 10 100

30

30

28

20 12

10

10

10

10

0 5

40

6

7

8

9

10

Tipične ocene na ispitu iz Statistike su šestica (studenti koji ne dolaze na predavanja) i devetka (studenti koji dolaze na predavanja).

4.4. Međusobni odnos mera centralne tendencije Ako se vrednosti posmatranog obeležja (x) raspoređuju oko svog proseka tako da je najveći broj manjih i većih vrednosti simetričan u odnosu na centar, onda se dobija simetričan raspored, koji se grafički manifestuje kao simetrična zvonasta linija kao na sledećem grafikonu.

x  Me  Mod

x  Me  Mod

x  Me  Mod

Kod ovog rasporeda, aritmetička sredina, medijana i mod su međusobno jednaki (a). Ako u distribuciji frekvencije preovlađuju ekstremno veće vrednosti od centra onda se dobija kriva, koja je iskrivljena udesno (pozitivna iskrivljenost). Centralne vrednosti se pomeraju tako da je aritmetička sredina udesno (zbog većeg učešća visokih ekstremnih vrednosti). Ona ima i najveću vrednost u ovom slučaju među merama centralne tendencije (b). Kad distribucije frekvencije gde preovlađuju ekstremno niske vrednosti iskrivljenost je na levoj strani (negativna iskrivljenost) i aritmetička sredina ima manju vrednost i od medijane i od moda (c) . Medijana se kod oba navedena rasporeda nalazi između aritmetičke sredine i moda, ali je po vrednosti bliža vrednosti aritmetičke sredine. Iz ovog odnosa proizilazi i aproksimativna matematička veza između mera centralne tendencije: Mod  3Me  2 x Izbor mere, koja će da predstavlja osnovni skup zavisi od stepena iskrivljenosti, odnosno od stepena varijabilnosti vrednosti posmatranog obeležja.

41

4.5. Mere centralne tendencije - izračunavanje u MS Excelu Primer: Na ispitu iz statistike polagalo je 15 studenata medicine i 15 stomatologije. Dobili su sledeće ocene: Medicinari: 10, 6, 9, 10, 10, 5, 6, 9, 8, 7, 10, 8, 9, 8, 10 Stomatolozi: 6, 5, 5, 6, 7, 9, 8, 5, 5, 6, 8, 7, 6, 9, 10, Izračunati prosečnu ocenu studenata medicine i studenata stomatologije? Rešenje: U radni list Excela unesemo podatke u dve kolone. Kliknemo na praznu ćeliju u kojoj želimo da se prikaže rezultat, na primer A18. Za izračunavanje aritmetičke sredine iz negrupisanih podataka koristimo funkciju =AVERAGE (raspon podataka). Zadavanje funkcija je moguće na dva načina. Jedan je Insert/Function a drugi direktnim klikom na fx. U oba slučaja otvara se sledeći radni prozor:

U prozoru Insert Function, u polje Or select a category izaberemo Statistical. U polju Select a function, imamo veliki broj statističkih funkcija, od kojih je potrebno da izaberemo AVERAGE. Kliknemo na OK i otvara se sledeći prozor:

42

Kliknemo na polje Number1, a zatim označimo ćelije od A2 do A16 (ocene studenata medicine). Na desnoj strani prozora ispod polja Number2 već vidimo Formula result, odnosno prosečnu ocenu studenata medicine. Kliknemo OK i u ćeliji A18 dobijamo prosečnu ocenu 15 studenata medicine. Za izračunavanje prosečne ocene studenata stomatologije, odnosno statističkog niza u koloni B, dovoljno je kopirati formulu iz ćelije A18 u ćeliju B18. Kliknemo na A18 i dovedemo kursor na mali crni kvadrat u desnom donjem uglu. Kada veliki krstić postane manji, pritisnemo levi taster miša i razvučemo u desno, i tako funkciju zadamo i na polje B18. Medijana i mod: Medijanu i mod izračunavamo na sličan način, birajući u polju Select a function funkcije MEDIAN ili MODE, a zatim ponavljamo postupke prikazane za izračunavanje aritmetičke sredine.

43

5. MERE VARIJABILNOSTI – DISPERZIJE Osnovna karakteristika vrednosti jednog istog obeležja je, da ta vrednost varira od jedne do druge statističke jedinice osnovnog skupa. Te vrednosti, mere centralne tendencije, a pre svega aritmetička sredina, sažimaju u jednu brojčanu vrednost koja je reprezentativna za sve vrednosti. Njena reprezentativnost zavisi od stepena varijabilnosti pojedinačnih vrednosti u odnosu na centralnu vrednost, konkretno u odnosu na aritmetičku sredinu. Ukoliko je varijabilnost manja, utoliko su vrednosti obeležja sabijenije oko aritmetičke sredine (manje odstupaju) i ona je reprezentativnija, a za takav skup kažemo da je homogen. Obrnuto, ako je varijabilnost veća, odstupanje pojedinačnih vrednosti od aritmetičke sredine je veće, a reprezentativnost aritmetičke sredine je manja i za takav skup kažemo da je heterogen. Ako imamo informaciju da je prosek lečenja u jednoj bolnici 8 dana, a u drugoj takođe 8 dana, to navodi na zaključak da je dužina trajanja lečenja kod pojedinih slučajeva u većini jednaka u obe bolnice. Drugim rečima, da su rasporedi dužine trajanja lečenja po pacijentu, jednaki u obe bolnice. Međutim, to može ali ne mora da bude tako. Da bi smo mogli da poredimo dve ili više serija, pored informacije o prosečnoj vrednosti, moramo da imamo i informaciju o odstupanju pojedinačnih vrednosti od proseka. Sledi zaključak da mere varijabilnosti zapravo ukazuju na reprezentativnost mera centralne tendencije. Manja mera varijabilnosti ukazuje na veću reprezentativnost srednje vrednosti i obrnuto. Mere varijabilnosti nas opredeljuju koju od mera centralne tendencije treba da koristimo, aritmetičku sredinu (ukoliko je skup homogen), ili medijanu (ukoliko je skup heterogen). Varijabilnost, disperzija, odstupanje pojedinačnih vrednosti ispitivanog obeležja u odnosu na prosek merimo tzv. merama varijabilnosti ili disperzije. One mogu da budu, prema brojčanom izrazu apsolutne i relativne. Apsolutne mere varijabilnosti: 1) Interval varijacije; 2) Interkvartilna razlika; 3) Varijansa i 4) Standardna devijacija. Relativne mere varijabilnosti: 1) Koeficijent varijacije i 2) Standardizovano odstupanje ili z-vrednost.

44

5.1. Apsolutne mere disperzije 5.1.1. Interval varijacije – rang (opseg) vrednosti Interval varijacije je gruba i orijentaciona mera varijacije i predstavlja razliku između maksimalne i minimalne vrednosti serije. Izračunava se po formuli: Iv=Xmax-Xmin Primer: U prethodnom primeru, o dužini lečenja u dve bolnice, najduže lečenje jednog bolesnika je iznosilo 22 dana, a najkraće lečenje je bilo 6 dana. U drugoj bolnici najduže lečenje je bilo 18 dana, a najkraće 5 dana. Na osnovu ovih podataka: Iv =Xmax-Xmin = 22-6=16 dana prva bolnica Iv = Xmax-Xmin= 18-5=13 dana druga bolnica Na osnovu dobijenih vrednosti za interval varijacije zaključujemo: 1. U prvoj bolnici su ekstremne vrednosti udaljenije od centralne vrednosti serije nego u drugoj bolnici; 2. Više se slučajeva u drugoj bolnici po dužini lečenja grupiše oko proseka u odnosu na prvu bolnicu. Manji interval varijabilnosti koincidira sa većom grupisanošću članova serije oko centralne vrednosti; 3. Što je veći interval varijacije to je veća varijabilnost pojedinačnih vrednosti oko proseka, to je prosek manje reprezentativan i obrnuto, manja vrednost, manja varijabilnost, veća sabijenost, veća reprezentativnost proseka. Nedostaci: a) Uzima u obzir samo dve vrednosti, odnosno, samo dva člana serije, sa najvećom i najmanjom vrednošću i b) Obzirom da se radi o ekstremnim vrednostima to one mogu da budu veoma udaljene od osnovne koncentracije ostalih vrednosti serije.

5.1.2. Interkvartilna razlika Primer: Izmerena je telesna masa 11 novorođenčadi i dobijene vrednosti su sređene po veličini: N 1 2 3 4 5 6 7 8 9 10 11 X 2,8 3,2 3,4 3,6 3,7 3,8 4,0 4,4 4,6 4,8 5,0 Q1 Q2 Q3 Medijanu ovog statističkog skupa predstavlja telesna masa šestog novorođenčeta pa je Me=3,8 kg. Kao što nam je već poznato, medijana deli niz na 50% vrednosti manje od medijane i na 50% vrednosti veće od medijane. Ako svaku od ove dve polovine podelimo na još po pola, dobijamo četiri jednaka dela statističke serije od kojih svaki sadrži po 25% vrednosti serije. Ovako ustrojeni delovi serije nazivaju se kvartilima (Q), četvrtinama.

45

Kako jedan kvartil predstavlja četvrtinu serije, to se njihova mesta u nizu vrednosti izračunavaju na sledeći način: 1.

2.

N  1 12   3 . Težina trećeg novorođenčeta 4 4 predstavlja vrednost prvog kvartila (Q1), pa je Q1=3,4 kg. U intervalu od 2,8 (minimalna vrednost) do 3,4 kg nalazi se 25% svih vrednosti serije i ovo su 25% najmanjih vrednosti od ukupnog broja vrednosti (od 100% vrednosti, od svih vrednosti). Mesto prvog kvartila MQ1 

N  1 12   6 . Telesna masa šestog 2 2 novorođenčeta predstavlja vrednost drugog kvartila, pa je Q2=3,8 kg. Medijana je u stvari drugi kvartil serije, pa je Me=Q2. U intervalu između drugog (medijane) i prvog kvartila nalazi se 25% vrednosti, koje su veće od vrednosti intervala prvog kvartila, ali su manje od svih ostalih vrednosti. U našem primeru ovaj interval je između 3,4 i 3,8 kg. Mesto

drugog

kvartila

MQ2 

3 N  1 36   9 . Telesna masa devetog 4 4 novorođenčeta predstavlja vrednost trećeg kvartila, pa je Q3=4,6 kg. U intervalu između Q2 (medijane) i Q3 nalaze se 25% vrednosti serije veće od 50% prethodnih vrednosti ali manje od ostalih 25% vrednosti serije. Za naš primer to je interval od 3,8 kg (Q2=Me) do 4,6 kg (Q3).

trećeg

kvartila

MQ3 

3.

Mesto

4.

Vrednost četvrtog intervala predstavlja maksimalnu vrednost serije, pa je u našem primeru Q4=5,0 kg.

Osnovni zaključak je: Između prvog (Q1) i trećeg (Q3) kvartila nalaze se 50% svih vrednosti serije, a van ovog intervala ostaju još 50% vrednosti, od kojih 25% manjih od Q1 (ekstremno najmanje vrednosti) i 25% vrednosti veće od Q3 (ekstremno najveće vrednosti). Zato se razlika između trećeg i prvog kvartila uzima kao mera varijabilnosti jer ova mera, za razliku od intervala varijacije isključuje ekstremno male i ekstremno velike vrednosti.1 Dakle, interkvartilnu razliku, možemo da definišemo kao distancu između prvog i trećeg kvartila, pa je formula za njegovo izračunavanje:

Iq  Q3  Q1 Za naš primer: Iq = Q3-Q1 = 4,6 – 3,4 = 1,2 kg U intervalu između 3,4 kg i 4,6 kg, nalazi se telesna masa 50% novorođenčadi, odnosno u intervalu od 1,2 kg. Za sve izvedene radnje i konstatacije uslov je i da je serija sređena po veličini vrednosti od najmanje do najveće ili obrnuto. Drugo, izneti primeri se odnose samo na osnovnu seriju (prost statistički niz) i sa neparnim brojem podataka u njemu.

46

Što je interkvartilna razlika manja to je varijabilnost vrednosti u seriji manja, a sabijenost oko centra veća i obrnuto. Interkvartilna razlika i interval varijacije mogu da se upoređuju i ako je interkvartilna razlika znatno manja od intervala varijacije (više od dva puta), to znači da na krajevima serije postoje ekstremno niske i ekstremno visoke vrednosti. U našim primeru za telesnu masu novorođenčadi: a) Iv= Xmax – Xmin = 5,0 – 2,8 = 2,2 kg b) Iq = Q3-Q1 = 4,6 – 3,4 = 1,2 kg c) Iv/Iq = 2,2/1,2 = 1,8 Interval varijacije je manje od dva puta veći od interkvartilne razlike, što znači da nema novorođenčadi sa ekstremnim vrednostima u odnosu na prosek.

5.1.3. Varijansa i standardna devijacija Dok interval varijacije obuhvata samo dve vrednosti serije, a interkvartilna razlika 50% vrednosti, dotle varijansa i standardna devijacija obuhvataju distancu svih vrednosti u odnosu na prosek (centar), odnosno u odnosu na aritmetičku sredinu. Kako je zbir odstupanja svih članova serije od aritmetičke sredine jednak nuli, to nije moguće izračunati prosek odstupanja.2 Da bi se izbegla 0, pristupilo se kvadriranju razlika pojedinačnih vrednosti od aritmetičke sredine i iz njihovog zbira se izračunava prosečno kvadratno odstupanje – varijansa (SD2), čija je matematička definicija: SD 2

 X  X  

2

n

Transformacijom gore navedene formule dobija se radna formula za izračunavanje prosečnog kvadratnog odstupanja svih vrednosti serije od aritmetičke sredine: X2 2  2 SD  X n Primer: Uzmimo telesne mase 11 novorođenčadi iz prethodnog poglavlja: 2,9

3,0

3,2

3,4

3,5

3,7

3,9

4,1

4,2

4,5

4,7

Pitanje je: Kolika je vrednost varijanse za datu seriju podataka?

2

Može da se izračuna i apsolutno prosečno odstupanje od proseka, kada se zanemare plus i minus vrednosti, ali ono ne omogućava dalje statističke operacije, pa ovde kao takvo nije ni obrađeno.

47

Rešenje: Radi izračunavanja varijanse po navedenim formulama treba konstruisati sledeću radnu tabelu:

X X

N

X

1 2 3 4 5 6 7 8 9 10 11 

2,9 3,0 3,2 3,4 3,5 3,7 3,9 4,1 4,2 4,5 4,7 41,1

2,9 - 3,73 = -0,83 3,0 - 3,73 = -0,73 3,2 - 3,73 = -0,53 3,4 - 3,73 = -0,33 3,5 - 3,73 = -0,23 3,7 - 3,73 = -0,03 3,9 - 3,73 = +0,17 4,1 – 3,73 = +0,37 4,2 - 3,73 = +0,47 4,5 - 3,73 = +0,77 4,7 - 3,73 = +0,97 0,00

X  X 

X2

0,6889 0,5329 0,2809 0,1089 0,0529 0,0009 0,0289 0,1369 0,2209 0,5929 0,9409 3,5859

8,41 9,00 10,24 11,56 12,25 13,69 15,21 16,81 17,64 20,25 22,09 157,15

2

Postupak

1. Prvo izračunamo aritmetičku sredinu:  X  41,1  3,73kg X  n 11 2. Zatim izračunamo razlike između svake vrednosti i vrednosti aritmetičke sredine: X-3,73 kg (treća kolona u radnoj tabeli). Obavezno treba proveriti da li je suma razlika jednaka 0. Ako nije, onda postoji greška u izračunavanju aritmetičke sredine. Zanemarljiva razlika, kao u našem primeru može da se javi zbog zaokruživanja decimala. 3. Dobijene razlike kvadriramo i kvadrate saberemo i na taj način dobijemo ukupnu sumu kvadratnog odstupanja (četvrta kolona u radnoj tabeli):

 X  X 

2

 3,5859

4. Na osnovu podataka iz radne tabele, a na osnovu formule, dobijamo: SD 2 



XX n



2



3,5858  0,33kg 2 11

Po drugoj formuli, koja se obično i naziva radnom formulom za varijansu, znatno je jednostavnije izračunati varijansu, a vrednost je ista. Umesto treće i četvrte kolone iz predhodne radne tabele, dovoljno je formirati kolonu sa kvadratima svake vrednosti (X2) i dobijene kvadrate sabrati (X2). Kako je za naš primer X2 = 157,15 (peta kolona u prikazanoj radnoj tabeli) to je: X2 157,15  2 SD  X   13,91  0,33kg 2 11 n I ovim postupkom je dobijena ista vrednost za varijansu, pa ga zbog jednostavnosti treba primenjivati u praksi.

48

Treba uočiti da je dobijena vrednost varijanse iskazana kao drugi stepen merne jedinice, odnosno 0,33 kg2, što je apsurdna vrednost i nepogodna je za poređenje. Izračunavanjem kvadratnog korena iz varijanse dobija se vrednost standardne devijacije, najčešće koriščene mere varijabilnosti, koja predstavlja prosečno odstupanje od aritmetičke sredine izraženo u istim mernim jedinicama u kojima je izražena i vrednost posmatranog obeležja. Formule za njeno izračunavanje su:

SD 2  SD 2 

(X  X )

2

ili SD 

n

X

2

n

X

2

Standardna devijacija za naš primer bi imala vrednost:

SD  SD 2  0,33  0,57kg Zaključivanje: Što je vrednost standardne devijacije manja, to je sabijenost vrednosti oko aritmetičke sredine veća, pa je i njena reprezentativnost za seriju (uzorak ili osnovni skup) veća i obrnuto, veća vrednost standardne devijacije - veća varijabilnost i sve ostalo što sledi iz toga. Nedostatak: Standardna devijacija omogućava poređenje između varijabilnosti dve serije ako su vrednosti date u istim mernim jedinicama i ako su aritmetičke sredine serija međusobno jednake. Međutim, i pored ovog nedostatka, kao što ćemo videti, u statističkoj metodologiji pored aritmetičke sredine, standardna devijacija je odigrala najznačajniju ulogu. Varijansa i standardna devijacija za distribuciju frekvencije, kao i aritmetička sredina, zahtevaju složenije matematičke postupke, mada u principu postoji analogija sa izračunavanjem kao kod proste statističke serije. a) Varijansa i standardna devijacija za osnovnu distribuciju frekvencije (bez grupnih intervala) izračunavaju se po formulama: SD 2

 f X  X   f

2

ili SD 2 

SD  SD 2 

 fX f

 f X  X  f

2

2

 X , a podsetimo se: X 

2

ili SD 

 fX f

2

X

fX f

2

U praksi treba koristiti drugu formulu za koju je sadržaj radne tabele:



f f1 f2 f3



fX f1 X1 f2 X2 f3 X3

fX2 (f1 X1)X1 = f1 X12 (f2 X2)X2 = f2 X22 (f3 X3)X3 = f3 X32

Xn 

fn f

fn Xn f X

(fn Xn)Xn = fn Xn2 fX2

X X1 X2 X3





49

b) Varijansa i standardna devijacija za distribuciju frekvencije sa grupnim intervalima izračunavaju se po formulama: SD 2 

 fX f

2 i

X

2

i SD  SD 2 

 fX f

2 i

X

2

Podsetimo se: 1. Aritmetička sredina grupnog intervala izračunava se tako što se početna (donja, manja) vrednost i završna vrednost (gornja, veća) intervala saberu, pa se dobijeni zbir podeli sa 2. 2. Formula aritmetičke sredine za distribuciju frekvencija sa grupnim intervalima je: fX i X f

5.2. Relativne mere disperzije Osnovni nedostatak apsolutnih mera varijabilnosti, pa i standardne devijacije kao najrelevantnije, je u tome što se njihove vrednosti moraju da iskazuju u mernim jedinicama u kojima je iskazano posmatrano obeležje, pa nije moguće poređenje varijabilnosti dve serije sa različitim mernim jedinicama. Ovaj problem je razrešen relativnim merama varijabilnosti (1) Koeficijentom varijacije i (2) z -vrednošću.

5.2.1. Koeficijent varijacije Koeficijent varijacije (Cv) je odnos (količnik) između standardne devijacije i aritmetičke sredine. Obično se iskazuje u procentima, pa je njegova formula: SD  100 Cv  X Primer: Kod 11 novorođenčadi telesna masa je u proseku iznosila X =3,73 kg sa SD=0,57 kg, dok je njihova telesna dužina u proseku bila X =50 cm sa SD=10 cm. Da li je dužina novorođenčadi varijabilnija od telesne mase pri rođenju? Za telesnu masu koeficijent varijacije je: SD 0,57 Cv   100   100  15, 28% 3,73 X a za telesnu dužinu on iznosi: SD 10 Cv   100   100  20,00% 50 X

Zaključivanje: Što je relativna vrednost koeficijenta varijabilnosti manja, to je i varijabilnost manja, a sabijenost oko proseka veća.

50

Postoji pravilo po kome ako je relativna vrednost koeficijenta varijacije manja od 30%, statistički niz (uzorak, osnovni skup) može se smatrati homogenim, a aritmetička sredina reprezentativnom centralnom vrednošću. Cv < 30% - homogeni skup Cv > 30% - heterogeni skup Prema ovom pravilu, i telesna masa i telesna dužina 11 novorođenčadi predstavljaju homogen uzorak (Cv=15,28%<30% i Cv=20%<30%), pri čemu je telesna masa homogenija jer njena standardna devijacija iznosi 15,28% od prosečne vrednosti, a standardna devijacija za dužinu iznosi 20,00% od njene aritmetičke sredine. 5.2.2. Standardizovano odstupanje

Sve dosadašnje mere varijabilnosti, su mere zajedničkog (ukupnog) odstupanja svih vrednosti od sopstvenog proseka. Međutim, varijacija se može ocenjivati i sa gledišta individualnih podataka, odnosno svake vrednosti pojedinačno. Odstupanje jedne pojedinačne vrednosti od prosečne vrednosti nekog obeležja možemo prikazati apsolutnom razlikom između te vrednosti i aritmetičke sredine: X  X . Međutim, u praksi se češće koristi relativna mera varijabilnosti koja predstavlja odnos između apsolutne razlike i standardne devijacije, a naziva se standardizovano odstupanje i obeležava se kao Z vrednost: X X Z SD Standardizovano odstupanje pokazuje koliko iznosi odstupanje vrednosti numeričkog obeležja jednog ispitanika od prosečne vrednosti tog obeležja kod svih ispitanika izraženo u jedinicama standardne devijacije. Z vrednost može poslužiti za poređenje varijabilnosti istog obeležja kod različitih ispitanika. Takođe, standardizovano odstupanje svodi pojedinačna odstupanja svih obeležja na istu mernu jedinicu, tj. standardnu devijaciju i zbog toga se može koristiti za poređenje varijabilnosti različitih obeležja kod jednog ispitanika. Z vrednosti za različita obeležja kod jednog ispitanika se mogu sabrati. Na taj način se jednom kumulativnom Z vrednošću prikazuje varijabilnost različitih obeležja. Z-vrednost ima svoju posebnu ulogu kod tzv. standardizovanog normalnog rasporeda, o čemu će biti reči u posebnom poglavlju. Primer: U grupi od 10 ispitanika koji imaju problema usled skolioze, pored drugih ispitivanja, izmerene su vrednosti testa stajanja i testa hodanja. Vrednost testa stajanja (vreme koje ispitanik može da izdrži u stojećem stavu do pojave bola) je kod svih ispitanika u proseku iznosila 45 minuta sa standardnom devijacijom od 10 minuta. Prosečna vrednost testa hodanja (rastojanje koje pacijent može da pređe do pojave bola) je iznosila 1500 metara sa standardnom devijacijom od 300 metara. Iz definicija oba testa jasno je da manje vrednosti ukazuju na nepovoljniji rezultat.

51

Jedan od ispitanika je imao vrednost testa stajanja od 50 minuta, a testa hodanja od 1300 metara. Drugi ispitanik je imao vrednost testa stajanja od 40 minuta, a testa hodanja od 1400 metara. Pitanja su: 1. Koliko su vrednosti testova stajanja i hodanja kod svakog od ovih ispitanika odstupale od prosečnih vrednosti kod svih ispitanika? 2. Koje obeležje je iskazalo veće odstupanje od prosečne vrednosti kod svakog od ovih ispitanika? 3. Koji ispitanik je imao povoljnije rezultate, kako po vrednostima svakog od testova, tako i posmatrajući rezultate oba testa u celini? I ispitanik

II ispitanik Test stajanja

Z

50  45  0,50 10

Z

40  45  0,50 10

Test hodanja

Z

1300  1500 1400  1500  0,67 Z  0,33 300 300 Kumulativna vrednost oba testa

 Z  (0,50)  (0,67)  0,50  0,67  0,17  Z  (0,50)  (0,33)  0,50  0,33  0,83 Odgovori: 1. Vrednost testa stajanja je kod prvog ispitanika bila za 0,50 standardnih devijacija veća (Z=0,50), a kod drugog za 0,50 standardnih devijacija manja (Z=-0,50) od prosečne vrednosti kod svih ispitanika. Vrednosti testa hodanja su kod oba ispitanika bile manje od prosečne vrednosti kod svih ispitanika, kod prvog za 0,67 (Z=-0,67), a kod drugog za 0,33 standardnih devijacija (Z=-0,33). 2. Kod prvog ispitanika je vrednost testa hodanja pokazala veće odstupanje od prosečne vrednosti, a kod drugog ispitanika vrednost testa stajanja. 3. Na testu stajanja je prvi ispitanik imao povoljniji rezultat jer je njegova vrednost testa bila veća od prosečne, a drugi ispitanik je imao manju vrednost od prosečne. Na testu hodanja su oba ispitanika imala manje vrednosti testa od prosečne, ali je odstupanje bilo manje kod drugog ispitanika što predstavlja povoljniji rezultat. Zbir odstupanja vrednosti oba testa je kod prvog ispitanika iznosio Z=-0,17 standardnih devijacija, a kod drugog Z=-0,83 standardnih devijacija i zaključujemo da prvi ispitanik ima povoljniji rezultat u celini.

5.3. Mere varijabiliteta - izračunavanje u MS Excelu Varijansa i standardna devijacija:

Varijansu iz negrupisanih podataka izračunavamo pomoću funkcije: =VAR(raspon podataka) Za izračunavanje standardne devijacije koristimo funkciju: =STDEV(raspon podataka)

52

Za izračunavanje intervala varijacije, interkvartilne razlike, koeficijenta varijacije i Z vrednosti u MS Excel-u ne postoje direktne funkcije već se svaka od njih dobija kroz nekoliko koraka. U sledećem primeru prikazaćemo kako bi izračunali sve prikazane mere centralne tendencije i varijabiliteta, odnosno kako bi u potpunosti opisali statističku seriju podataka za telesnu masu 11 novorođenčadi3. Prvo u kolonu A radnog lista, koju smo označili sa TELESNA MASA, unesemo vrednosti telesne mase novorođenčadi u ćelije od A2 do A12. Zatim u zasebnim ćelijama, koje smo sa leve strane označili nazivima parametara, unošenjem funkcija i opsega ćelija sa podacima izračunamo sve statističke parametre za koje u Excelu postoje definisane funkcije, a to su: Parametar: Aritmetička sredina Medijana Mod Maksimalna vrednost Minimalna vrednost Varijansa Standardna devijacija Prvi kvartil Treći kvartil

3 4

Funkcija: AVERAGE(A2:A12), MEDIAN(A2:A12), MODE(A2:A12), MAX(A2:A12), MIN(A2:A12), VAR(A2:A12), STDEV(A2:A12), QUARTILE(A2:A12;1),4 QUARTILE(A2:A12;3)

Jednu vrednost od 3,4kg smo zamenili sa 3,5gk kako bi serija imala i Mod. Za kvartile je u posebnom polju radnog prozora funkcije potrebno upisati i koji kvartil zelimo da izracunamo (1., 2. ili 3.)

53

Interval varijacije izračunavamo tako što u posebnu ćeliju (u našem primeru D11, koju smo predhodno označili nazivom parametra sa leve strane) ukucamo znak =, zatim kliknemo na ćeliju D5 (tu nam se nalazi izračunata maksimalna vrednost), potom ukucamo znak -, zatim kliknemo na ćeliju D6 (tu nam se nalazi izračunata maksimalna vrednost) i na kraju pritisnemo dugme Enter na tastaturi. U ćeliji D11 se pojavljuje vrednost intervala varijacije od 1,80, a u formula baru se vidi formula koju smo upisali u ćeliju, odnosno =D5-D6.

Za izračunavanje interkvartilne razlike u ćeliju D12 upišemo znak =, kliknemo na ćeliju D10 (tu nam se nalazi izračunata vrednost trećeg kvartila), upišemo znak -, kliknemo na ćeliju D9 (tu nam se nalazi izračunata vrednost prvog kvartila) i pritisnemo dugme Enter. U ćeliji D12 se pojavljuje vrednost interkvartilne razlike od 0,80, a u formula baru se vidi formula koju smo upisali u ćeliju, odnosno =D10-D9. Za izračunavanje koeficijenta varijacije u ćeliju D13 upišemo znak =, kliknemo na ćeliju D8 (tu nam se nalazi izračunata vrednost standardne devijacije), upišemo znak /, kliknemo na ćeliju D2 (tu nam se nalazi izračunata vrednost aritmetičke sredine), ukucamo *100 i pritisnemo dugme Enter. U ćeliji D13 se pojavljuje vrednost koeficijenta varijacije od 15,86, a u formula baru se vidi formula koju smo upisali u ćeliju, odnosno =D8/D2*100. Ukoliko bi želeli da izračunamo Z vrednost za neku pojedinačnu vrednost, na primer za 3,5 kg, u ćeliju D14 upišemo =(3,5- zatim kliknemo na ćeliju D2 (tu nam se nalazi izračunata vrednost aritmetičke sredine), potom upišemo )/, zatim kliknemo na ćeliju D8 (tu nam se nalazi izračunata vrednost standardne devijacije) i pritisnemo dugme Enter. U ćeliji D14 se pojavljuje Z vrednost od -0,41, a u formula baru se vidi formula koju smo upisali u ćeliju, odnosno =(3,5-D2)/D8.

54

55

Pitanja i zadaci za vežbu

1. Definiši pojmove: masovna pojava; statistička jedinica; obeležje; osnovni skup i varijabilnost? 2. U čemu je bitna razlika između žive i nežive prirode? 3. U čemu je razlika između osnovne empirijske serije i distribucije frekvencije? 4. Da li atributivna obeležja mogu da uzmu svaku brojčanu vrednost? 5. Sačini anketu o nekom problemu i sprovedi je među licima iz okoline za koja smatraš da su zainteresovana za taj problem. Sredi podatke iz ankete u vidu serija, tabela i prikaži grafički. Analiziraj dobijene informacije. 6. Dati su originalni podaci o ocenama studenata na ispitu iz Statistike: 5 6 6

6 9 9 6 10 8 8 8 5

6 6 8

7 6 10 8 9 10 7 5 9 7 9 6

6 9 5 9 10 6 9 9 6

6 8 8 10 6 9

Zadatak: 1. Datu osnovnu seriju sredi u vidu distribucije frekvencije; 2. Izračunaj mere centralne tendencije i varijabilnosti i 3. Konstruiši statističku tabelu i predstavi grtafički. 7. Dati su podaci o starosti 10 radnika u godinama i visini zarada u dinarima: Starost (godina) Zarada (dinara)

N 1 2 3 4 5 6 7 8 9 10 51 47 44 50 56 45 71 38 52 61 300 400 200 600 500 200 900 300 200 600

Zadatak: Izračunaj koeficijent varijacije i prosudi koji je niz varijabilniji? 8. U jednoj ambulanti, otkriven je po godinama sledeći broj zaraznih bolesti: Godina Broj obolelih

1987 135

1988 124

1989 104

1991 96

1992 91

1993 140

1994 145

Zadatak: Datu vremensku seriju prikaži grafički. Šta zapažaš za 1993. i 1994. godinu? 9. Data je empirijska serija telesne mase 50 regruta: 72 73 78 79 80

90 70 74 84 88

70 81 80 80 82

73 74 75 79 80

81 70 72 84 85

81 81 83 84 81

86 87 90 72 82

76 77 80 81 91

87 83 83 84 90

76 82 83 88 80

Zadatak: 1. Empirijsku seriju sredi u vidu distribucije frekvencije sa veličinom grupnog intervala od 5 kg; 2. Predstavi grafički, najmanje na dva načina i 3.

56

Koliko je udaljena od proseka težina regruta od 78 kg, a koliko težina regruta od 90 kg? Zašto ove vrednosti imaju suprotne prtedznake: plus i minus? 10. Vreme krvavljenja kod 10 osoba obolelih od esencijalne trombocitopenije iznosilo je: Pacijenti Vreme krvavljenja (minuti)

1 4

2 8

3 4 5 6 8,2 7

6 7 8 9 10 5 4,5 9 7,5 10

Zadatak: 1. Odredi medijanu; 2. Izračunaj interval varijacije i interkvartilnu razliku i uporedi dobijene vrednosti. Šta možeš da zaključiš? 11. Izmerena je koncentracija SO2 na 10 mernih mesta: Merna mesta Vrednosti SO2 (μg/m3)

1 74

2 3 4 5 6 7 5 200 30 40 120 0

8 9 10 50 90 100

Zadatak: 1. Koja mera centralne tendencije može da reprezentuje datu seriju? 2. Odredi vrednosti prvog (Q1) i trećeg (Q3) kvartila i interkvartilnu razliku. 12. Određen je radijalni puls kod 15 odraslih osoba muškog pola i kod 15 osoba ženskog pola i dobijene su sledeće vrednosti: Muškarci Žene

60 62 69 65 74 67 71 73 78 81 83 71 76 75 72 61 72 73 81 86 80 82 79 76 66 78 81 84 67 70

Zadatak: 1. Izračunaj koeficijent varijacije za oba niza i oceni varijabilnost. 2. Sredi serije u vidu distribucije frekvencije sa veličinom intervala od 3 jedinice i izračunaj aritmetičku sredinu. Zašto se vrednost aritmetičke sredine izračunate iz empirijskog niza razlikuje od aritmetičke sredine izračunate iz distribucije frekvencije sa grupnim intervalima? 13. Broj stanovnika prema popisu iz 1991. godine u sledećim okruzima bio je: Niški okrug: 395.688; Toplički okrug: 111.706; Pirotski okrug: 116.876; Jablanički: 255.091 i Pčinjski okrug: 242.369. Zadatak: Date podatke predstavi u vidu statističke tabele i predstavi grafički. 14. Izmerene su telesne mase i telesne visine 13 dečaka: Masa (kg) Visina (cm)

N 1 2 3 4 5 6 7 8 9 10 11 12 43 48 50 43 46 40 49 41 47 40 39 43 140 150 152 140 145 141 145 140 146 135 139 140

Zadatak: 1. Izračunaj mere centralne tendencije za svaku seriju. 2. Predstavi grafički i ucrtaj prave za aritmetičku sredinu, medijanu i mod. Nađi njihov odnos i odgovori zašto se medijana po vrednosti uvek nalazi između aritmetičke sredine i moda, bilo da je asimetrija rasporeda ulevo ili udesno? 3. Proveri da li se dobija ista vrednost za mod iz aproksimativne veze: mod = 3 Me -2 x .

57

15. Broj umrle odojčadi po mesecima u godini na području N, bio je: Meseci jan feb mar apr maj jun jul avg sep okt nov dec Umrla odojčad 25 15 10 5 12 13 15 30 24 15 10 14 Zadatak: Datu vremensku seriju prikaži grafički najmanje na dva načina. Šta zapažaš i kako to objašnjavaš? 16. Data je distribucija domaćinstava prema broju članova: Broj članova Broj domaćinstava

1 14

2 30

3 43

4 38

5 19

6 14

7 12

Zadatak: Odredi medijanu i mod, i predstavi grafički. 17. Pri upisu u prvi razred osnovne škole vrše se sistematski lekarski pregledi. Pored ostalog meri se i sposobnost dece. Jedne godine, kod jedne generacije dobijeni su sledeći rezultati (poenima od 1-12 ocenjene su sposobnosti dece): Broj poena Dečaci Devojčice

1 260 265

4 544 540

7 660 600

9 1200 1200

10 1800 1850

11 960 700

12 70 65

Zadatak: 1. Odrediti koeficijent varijacije i za jednu i za drugu grupu i oceniti varijabilnost. 2. Odredi medijanu i mod i 3. Predstavi grafički. 18. U jednom domu zdravlja prosečan broj dnevne opterećenosti lekara iznosio je 25 pregleda sa standardnom devijacijom od 5 pregleda, a u drugom domu zdravlja prosečna dnevna opterećenos je bila 30 pregleda sa standardnom devijacijom od 4 pregleda. Ako lekar N u prvom domu zdravlja ima 20 pregleda dnevo, a lekar M u drugom domu zdravlja 26 pregleda dnevno, koji je od ova dva lekara teže podnosio svoje dnevno opterećenje s obzirom na prosečnu opterećenost lekara u odgovarajućem domu zdravlja?

58

6. TEORIJSKE RASPODELE VEROVATNOĆA Kod većine pojava slučajno promenljive ne uzimaju vrednosti nasumično i haotično već se kod njih mogu uočiti izvesne zakonitosti rasporeda vrednosti, to više što je broj jedinica posmatranja veći (prema zakonu velikih brojeva). Raspodela ili distribucija predstavlja raspored vrednosti nekog numeričkog obeležja ili raspored modaliteta nekog atributivnog obeležja. Kod većine obeležja njihove vrednosti prate sledeću zakonitost rasporeda: najveći broj vrednosti se nalazi oko aritmetičke sredine, njihov broj postepeno opada što se više razlikuju od proseka, bilo da su manje ili veće od njega, tako da su ekstremno niske ili visoke vrednosti zastupljene u vrlo malom broju. U prirodi i društvu postoje dve vrste pojava. U jednu vrstu spadaju one pojave čiji su svi uslovi nastajanja poznati i najčešće malobrojni, a dešavaju se prema tačno definisanim zakonitostima. Ovakve pojave dešavaju se uglavnom u neživoj prirodi, a izučavaju ih fizika i hemija. Kada su svi uslovi ispunjeni, nastajanje ovih pojava je neminovno ili potpuno izvesno, a veze između uzroka i posledica su konstantne i nepromenljive i takve veze se nazivaju funkcionalne. Kod funkcionalnih veza jedan isti uzrok dovodi uvek do iste posledice, u uslovima kada su svi drugi uzroci kontrolisani i konstantni. U drugu vrstu spadaju one pojave koje su posledice delovanja niza faktora koji su najčešće samo delimično poznati i koji deluju u različitim kombinacijama, a pojave ove vrste dešavaju se uglavnom u živoj prirodi i društvu. Mada i kod njih važe određene zakonitosti, pojave u živoj prirodi i društvu se ne moraju ispoljiti i uočiti kod svakog pojedinačnog slučaja već samo na velikom broju, odnosno masi pojava. Nastajanje ovih pojava pod delovanjem uzročnih faktora nije neminovno već se dešava sa određenom verovatnoćom, a veze između uzroka i posledica nisu nepromenljive, već u određenoj meri variraju i takve veze se nazivaju stohastičke ili statističke veze, a same pojave stohastičke pojave. Kod stohastičkih pojava jedan isti uzrok ne dovodi uvek do iste posledice, jer ili nije moguće stvoriti uslove u kojima su i svi drugi uzroci kontrolisani i konstantni ili svi uzroci još uvek nisu poznati. Statistička metodologija je formulisana tako da se primenjuje pri proučavanju stohastičkih pojava, odnosno onih koje se ne dešavaju neminovno već sa određenom verovatnoćom. U uvodnom delu ovog udžbenika je navedeno da se statistička metodologija zasniva na teoriji verovatnoće i zakonu velikih brojeva. U ovom poglavlju će biti reči o najčešće primenjivanim raspodelama verovatnoće. Za razliku od empirijskih distribucija frekvencija evidentiranih (dobijenih, opaženih) podataka, teorijske distribucije verovatnoće opisane su matematičkim modelima. Kada neka empirijska distribucija aproksimira, tj. sledi određenu teorijsku distribuciju verovatnoće, možemo upotrijebiti teorijsko znanje o toj distribuciji kako bismo dobili potrebne odgovore na pitanja o svojim evidentiranim podacima. To najčešće zahteva procenu verovatnoće. Najznačajnije teorijske diskontinuirane distribucije verovatnoća su: binomna i Puasonova, dok su najvažnije kontinuirane distribucije verovatnoća: normalna, t, Hi kvadrat i F raspodela. Prema jednačinama specifičnim za svaku od teorijskih distribucija verovatnoće, a koje se nazivaju funkcije gustine verovatnoće, sve ove raspodele možemo prikazati

59

grafički odgovarajućim krivama u koordinatnom sistemu. Pri tome horizontalna osa predstavlja vrednosti slučajno promenljive X, a vertikalna osa predstavlja verovatnoću tih vrednosti. Ukupna površina ispod krive iznosi 1 (100%) i predstavlja verovatnoću dobijanja svih mogućih vrednosti, odnosno nastupanja svih mogućih događaja. Verovatnoća da X leži između neke dve vrednosti jednaka je površini ispod krive između te dve vrednosti.

6.1. Binomna distribucija verovatnoće Binomnu distribuciju definisao je Jacob Bernuolli 1700. godine. To je teorijska distribucija za diskontinuirana slučajno promenljiva obeležja kada imamo dva moguća ishoda: da i ne (uspeh i neuspeh) u n mogućih događaja. Ovakva obeležja nazivaju se dihotomna. Jednačina binomne distribucije, odnosno verovatnoća da u seriji od n pokušaja uspešni događaj nastupi tačno x puta glasi: P( x ) 

n! p x (1  p) n  x x ! n  x  !

gde su: x broj uspešnih događaja, n broj pokušaja, a p verovatnoća uspeha za svaki pokušaj. Znak interpunkcije ! označava faktorijel. Podsetimo se da faktorijel npr. broja tri iznosi: 3!=3×2×1=6, a faktorijel broja pet: 5!=5×4×3×2×1=120. Posebno je pravilo da faktorijel od nule (0!) iznosi 1. Podsetimo se, takođe, da nulti stepen bilo kog broja (x0) iznosi 1. Primer: Pet studenata izašlo je na pismeni deo ispita iz statistike, kod koga ishod može biti uspeh (položio) ili neuspeh (nije položio). Na osnovu rezultata predhodnih ispita poznato nam je da je prolaznost na ovom ispitu 50% ili p=0,5. Koje su verovatnoće svih mogućih ishoda na ispitu? Ishod (broj studenata koji će položiti) 5 (svi)

P(5) 

5!  0,55  (1  0,5)5 5  0, 03125 5! 5  5  !

4

P(4) 

5!  0,54  (1  0,5)5 4  0,15625 4! 5  4  !

3

P(3) 

5!  0,53  (1  0,5)5 3  0,31250 3! 5  3 !

2

P(2) 

5!  0,52  (1  0,5)5  2  0,31250 2! 5  2  !

1

P(1) 

5!  0,51  (1  0,5)51  0,15625 1! 5  1 !

0 (nijedan)

P(0) 

5!  0,50  (1  0,5)5 0  0, 03125 0! 5  0  !

Ukupno

60

Verovatnoća

1,00000

Ovu distribuciju verovatnoća možemo prikazati i grafički: 0,40 0,35

Verovatnoća

0,30 0,25 0,20 0,15 0,10 0,05 0,00 0

1

2

3

4

5

Broj studenata koji će položiti

Osobine binomne distribucije: - Zavisi od dva parametra: broja ispitanika u uzorku ili broja ponavljanja pokušaja - n i stvarne verovatnoće uspeha za svakog ispitanika ili za svaki pokušaj - p; - Što je uzorak (broj pokušaja) – n veći distribucija je to više simetrična, bez obzira na vrednost p. Kada n ima malu vrednost, distribucija je simetrična u slučajevima kada je p=0,5, zakrivljena je u desno kada je p<0,5, a ako je p>0,5 distribucija je zakrivljena u levo; - Binomna distribucija se upotrebljava pri zaključivanju o proporcijama.

6.2. Puasonova distribucija Puasonova distribucija verovatnoće postoji kada događaji neke vrste nastaju slučajno u vremenu ili kada se neke čestice raspoređuju slučajno u prostoru, a nazvana je po francuskom matematičaru Simeon Deniz Puasonu. Predpostavimo da se određena vrsta događaja javlja po slučajnom rasporedu, sa prosečnom učestanošću x u nekom vremenskom intervalu T. Broj događaja x slučajno varira u svakoj jedinici vremena n vremenskog intervala T i može iznositi 0, 1, 2, ... i td. Koja je verovatnoća da će se određena vrednost x pojaviti u nekoj jedinici vremena n Da predhodno pitanje preformulišemo u razumljiv primer: U nekom gradu se u toku jedne godine prosečno dnevno rađa petoro dece. Koja je verovatnoća da će se u jednom danu u tom gradu roditi desetoro dece? Formula koja definiše verovatnoću po Puasonovoj distribuciji glasi: x

x  e x P( x )  x! Iz formule je uočljivo da je Puasonova distribucija određena samo jednim parametrom i to prosečnom učestalošću nastupanja događaja x . Sa e je označena osnova prirodnog logaritma, koja predstavlja konstantnu vrednost (e = 2,718...). Uvođenjem svih predpostavljenih vrednosti x u datu formulu izračunavaju se verovatnoće za njihovo javljanje.

61

Za naš primer u kome je x =5 verovatnoće javljanja određenih vrednosti x prema Puasonovoj distribuciji date su u sledećoj tabeli i grafikonu:

Verovatnoća .

Puasonova distribucija za x =5 Vrednost Verovatnoća Vrednost Verovatnoća Vrednost Verovatnoća javljanja javljanja javljanja x x x 0 0,006737 6 0,146222 12 0,003434 1 0,033689 7 0,104444 13 0,001320 2 0,084224 8 0,065278 14 0,000471 3 0,140373 9 0,036265 15 0,000157 4 0,175467 10 0,018132 16 0,000049 5 0,175467 11 0,008242 17 0,000014

0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00

x5

0

1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17

Broj događaja

Iz tabele možemo videti da verovatnoća da će se u gradu, u kome se inače u toku jedne godine prosečno dnevno rađa petoro dece, u nekom danu n roditi desetoro dece iznosi 0,018132 ili 1,8132%.

6.3. Normalna distribucija Normalna distribucija je najvažnija distribucija kontinuiranih obeležja. Opisao ju je nemački matematičar Karl Fridrih Gaus. Vrednosti većine bioloških obeležja raspoređuju se po tipu normalne distribucije. Osobine normalne distribucije: - U potpunosti je definisana aritmetičkom sredinom i standardnom devijacijom; - Vrednosti obeležja (x) mogu se kretati od minus beskonačno do plus beskonačno (−∞,+∞); - Formula koja definiše verovatnoću u normalnoj distribuciji glasi: P x  

1

1  x x     2  SD 

2

e SD  2 gde su  i e matematičke konstante koje iznose približno:   3,14, e  2,72.

62

- Grafički se normalna distribucija manifestuje u vidu tzv. Gauss-ove normalne krive, koja je zvonastogog oblika i simetrična oko aritmetičke sredine; - Aritmetička sredina, medijana i mod imaju istu vrednost. - Ukoliko se povećava vrednost aritmetičke sredine kriva se pomera udesno od koordinatnog početka, a ukoliko se vrednost aritmetičke sredine smanjuje pomiče se ulevo; 0 ,20 0 ,18



f x  10, SD  3

Verovatnoća .

0 ,16





f x  20, SD  3



0 ,14 0 ,12 0 ,10 0 ,08 0 ,06 0 ,04 0 ,02 0 ,00 0

5

10

15

20

25

30

x

- Ukoliko se vrednost standardne devijacije povećava kriva se snižava i širi, a ukoliko se vrednost standardne devijacije smanjuje kriva se povisuje i sužava; 0,20 0,18

Verovatnoća.

0,16









f x  15, SD  3

0,14 0,12 0,10 0,08 0,06

f x  15, SD  4

0,04 0,02 0,00 0

5

10

15

20

25

30

x

- Ukupna površina ispod normalne krive, koju ova ograničava sa x-osom, jednaka je jedinici, odnosno 100%. Kako je kriva simetrična, 50% površine nalazi se levo od normale podignute nad aritmetičkom sredinom, a 50% desno od ove normale. Kako površina ispod krive predstavlja raspored verovatnoća, postoji 50% verovatnoće da će slučajno promenljiva x uzeti neku vrednost manju ili veću od aritmetičke sredine. - Posebno značajna osobina normalnog rasporeda je ta, da za njega važi: Sigma tri pravilo

Verovatnoća da će vrednost x nekog obeležja biti u intervalu: x  1 SD iznosi 68%; x  1,96 SD iznosi 95%; x  2,58 SD iznosi 99%.

63

68%

1 SD

x

1 SD

95%

1,96 SD

x

1,96 SD

99%

2,58 SD

x

2,58 SD

Navedena osobina važi za svaku normalnu distribuciju bez obzira na veličinu aritmetičke sredine i standardne devijacije. U okviru 22,58=5,16 standardnih devijacija nalazi se 99% svih vrednosti slučajno promenljive, a izvan ovog intervala ostaje samo 1% vrednosti (po 0,5% onih koje su manje i 0,5% onih koje su veće od prosečne vrednosti). Uvođenjem bilo koje vrednosti obeležja (x) u formulu za izračunavanje verovatnoće u normalnoj distribuciji može se ustanoviti verovatnoća za njeno javljanje u nekoj populaciji. Naravno, u formulu je potrebno uneti i vrednosti aritmetičke sredine i standardne devijacije. Međutim, sam pogled na formulu govori nam da izračunavanje neće biti lako. Na sreću, umesto mukotrpnog izračunavanja primenom formule, danas se za određivanje verovatnoće javljanja neke vrednosti u normalnoj distribuciji možemo poslužiti bilo kojim statističkim računarskim programom. I pri korišćenju programa potrebno je u radni prozor uneti vrednosti x, aritmetičke sredine i standardne devijacije. Verovatnoća da će se vrednost obeležja nalaziti u intervalu između x1 i x2 izračunava se tako što se prvo izračunaju kumulativne verovatnoće za vrednosti x1 i x2. To nisu verovatnoće za pojavu vrednosti x1 i x2, već verovatnoće da će se vrednost obeležja nalaziti u intervalu od 0 do x1, odnosno od 0 do x2. Do njih se dolazi posebnom formulom, koja uključuje integralni račun. Zatim se od veće izračunate kumulativne verovatnoće oduzme manja. Dobijena razlika predstavlja traženu verovatnoću da će se vrednost obeležja nalaziti u intervalu između x1 i x2. I ovo izračunavanje je relativno jednostavno korišćenjem statističkih računarskih programa.

64

6.4. Standardizivana normalna distribucija Standardizovana normalna distribucija je normalna distribucija čija aritmetička sredina iznosi 0, a standardna devijacija je 1. Normalna distribucija se transformiše u standardizovanu normalnu distribuciju korišćenjem formule: xx Z SD gde su x, x i SD parametri iz normalne distribucije koju transformišemo, odnosno iz originalne X normalne distribucije. Standardizovana normalna distribucija se naziva i Z distribucija. Podsetimo se da Z vrednost određuje distancu, odstupanje svake individualne vrednosti slučajno promenljive od aritmetičke sredine izraženo u jedinicama standardne devijacije. Na primer, ako je neki ispitanik na testiranju dobio 70 poena, a aritmetička sredina skorova svih ispitanika je iznosila 50 poena sa standardnom devijacijom od 10 poena, to znači da je ta osoba dobila za dve standardne devijacije više poena nego što je iznosio prosečan skor svih ispitanika: x  x 70  50 Z  2 10 SD

Primena formule za transformaciju će uvek kao rezultat dati distribuciju čija aritmetička sredina iznosi 0, a standardna devijacija je 1. Ove vrednosti su uprostile formulu normalne krive i omogućile lakše izračunavanje verovatnoće za bilo koju vrednost obeležja, bez obzira na vrednosti aritmetičke sredine i standardne devijacije. U situaciji kada je x  0 , a SD  1 , Z vrednost iznosi: x x x0 x   x Z 1 1 SD Prema tome, kada se normalan raspored definiše kao standardizovani normalni raspored vrednost x postaje jednaka vrednosti Z, odnosno vrednost obeležja (x) nam istovremeno pokazuje i odstupanje te iste vrednosti od prosečne vrednosti (logično jer prosečna vrednost je 0). Sve Z vrednosti se oko vrednosti Z=0 raspoređuju u vidu normalnog rasporeda pa i ovde važi sigma tri pravilo: - U intervalu od -1 do +1 nalaze se 68% svih Z vrednosti. - U intervalu od -1,96 do +1,96 nalaze se 95% svih Z vrednosti. - U intervalu od -2,58 do +2,58 nalaze se 99% svih Z vrednosti. Na osnovu formule za gustinu normalne raspodele, osobina standardizovane normalne distribucije i ovih pravila, konstruisana je tabela koja sadrži verovatnoće za udaljenost svake Z vrednosti od nule, a naziva se tabela površina ispod normalne krive.

65

Deo tabele - Površina pod normalnom krivom između 0 i Z Z 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5

0 0,3413 0,3643 0,3849 0,4032 0,4192 0,4332 0,4452 0,4554 0,4641 0,4713 0,4772 0,4821 0,4861 0,4893 0,4918 0,4938

1 0,3438 0,3665 0,3869 0,4049 0,4207 0,4345 0,4463 0,4564 0,4649 0,4719 0,4778 0,4826 0,4864 0,4896 0,4920 0,4940

2 0,3461 0,3686 0,3888 0,4066 0,4222 0,4357 0,4474 0,4573 0,4656 0,4726 0,4783 0,4830 0,4868 0,4898 0,4922 0,4941

3 0,3485 0,3708 0,3907 0,4082 0,4236 0,4370 0,4484 0,4582 0,4664 0,4732 0,4788 0,4834 0,4871 0,4901 0,4925 0,4943

4 0,3508 0,3729 0,3925 0,4099 0,4251 0,4382 0,4495 0,4591 0,4671 0,4738 0,4793 0,4838 0,4875 0,4904 0,4927 0,4945

5 0,3531 0,3749 0,3944 0,4115 0,4265 0,4394 0,4505 0,4599 0,4678 0,4744 0,4798 0,4842 0,4878 0,4906 0,4929 0,4946

6 0,3554 0,3770 0,3962 0,4131 0,4279 0,4406 0,4515 0,4608 0,4686 0,4750 0,4803 0,4846 0,4881 0,4909 0,4931 0,4948

7 0,3577 0,3790 0,3980 0,4147 0,4292 0,4418 0,4525 0,4616 0,4693 0,4756 0,4808 0,4850 0,4884 0,4911 0,4932 0,4949

8 0,3599 0,3810 0,3997 0,4162 0,4306 0,4429 0,4535 0,4625 0,4699 0,4761 0,4812 0,4854 0,4887 0,4913 0,4934 0,4951

9 0,3621 0,3830 0,4015 0,4177 0,4319 0,4441 0,4545 0,4633 0,4706 0,4767 0,4817 0,4857 0,4890 0,4916 0,4936 0,4952

Upotrebu tabele površina ispod normalne krive možemo objasniti na sledećim primerima: Primer I: Potrebno je odrediti verovatnoću da Z vrednost uzme neku vrednost u intervalu od -1,96 do +1,96. Rešenje: U tabeli su date verovatnoće za odstojanje Z vrednosti od nule. Prvo odredimo verovatnoću da će se Z vrednost naći u intervalu od 0 do +1,96. Niz prvu kolonu tabele tražimo vrednost od 1,9, a zatim duž reda dolazimo do vrednosti koja odgovara koloni sa brojem 6 (druga decimala). Ta vrednost je 0,4750 ili 47,5%. Znači, verovatnoća da će Z imati vrednost u intervalu od 0 do +1,96 iznosi P=0,4750 ili 47,5%. Kako je kriva simetrična, to verovatnoća da se Z vrednost nalazi u suprotnom smeru tj. u intervalu od -1,96 do 0 iznosi još 47,5%, tako da verovatnoća da Z uzme neku vrednost u intervalu od -1,96 do +1,96 iznosi: P = 47,5 + 47,5 = 95%. To isto znači da se u intervalu od -1,96 do +1,96 nalazi 95% svih vrednosti Z. Primer II: Ako je zadana verovatnoća P=0,96 u kom intervalu se nalazi Z vrednost za ovu verovatnoću ako je taj interval simetričan u odnosu na nulu? Rešenje: Zadatu verovatnoću od P=0,96 podelimo sa 2 i dobijamo P=0,48. U tabeli nađemo ovu vrednost (ili najbližu) i horizontalno, ulevo očitamo u prvoj koloni vrednost za Z sa jednom decimalom, a vertikalno u prvom redu očitamo drugu decimalu. Konkretno, za vrednost P=0,48 najbliža vrednost u tabeli je 0,4803. Ulevo očitamo u prvoj koloni vrednost za Z sa jednom decimalom koja iznosi 2,0, a vertikalno u prvom redu očitamo drugu decimalu koja iznosi 6. Prema tome, za zadanu verovatnoću od P=0,96, uz uslov da je interval simetričan u odnosu na nulu, Z vrednost se nalazi u intervalu od -2,06 do +2,06. xx možemo svaku vrednost x nekog obeležja, bez SD obzira u kojim je mernim jedinicama izražena, prevesti u Z vrednost. Obrnuto, svaka vrednost Z se može prevesti u x vrednost: x  Z  SD  x .

Primenom formule Z 

66

Iz toga sledi da se vrednosti apscisne ose bilo kog normalnog rasporeda mogu izraziti pomoću dve skale: standardizovane Z skale i merne x skale.

Z skala -2,58 -1,96 -1 x skala x -2,58SD x -1,96SD x -1SD

0 x

1 1,96 2,58 x +1SD x +1,96SD x +2,58SD

Predhodna dva primera su pokazala kako se tabela površina ispod normalne krive može koristiti za određivanje verovatnoće ako je poznata Z vrednost ili obrnuto, za određivanje Z vrednosti kada je poznata verovatnoća. Praktična primena ove tabele, odnosno standardizovane normalne skale će biti razumljivija iz sledećeg primera: Primer: Na pismenom ispitu iz statistike prosečan broj postignutih poena je iznosio 75, sa standardnom devijacijom od 12 poena. a) Kolika je verovatnoća da će neki, slučajno odabrani student, imati više od 90 poena, odnosno da će dobiti ocenu 10? b) Kolika je verovatnoća da će neki, slučajno odabrani student, imati više od 50 poena, odnosno da će položiti ispit? Rešenja: a) U prvom koraku je potrebno izračunati Z vrednost, a prema formuli: x  x 90  63 27    2, 25 Z SD 12 12 Zatim iz tabele očitamo verovatnoću da će se Z vrednost naći u intervalu između 0 i 2,25, a ona iznosi 0,4878. To istovremeno znači da verovatnoća da će student imati između 63 i 90 poena iznosi 0,4878, odnosno 48,78%. Kako verovatnoća da će student imati 63 ili više poena iznosi 50% (podsetimo se: 50% svih vrednosti je jednako ili manje od aritmetičke sredine, a 50% svih vrednosti je jednako ili veće od aritmetičke sredine), to verovatnoća da će imati više od 90 poena iznosi: P(>90)=50-48,78=1,22%. Ovo istovremeno znači i da će 1,22% studenata imati više od 90 poena, odnosno dobiti ocenu 10 na pismenom ispitu iz statistike. x  x 50  63   1,08 b) Z  12 SD Iz tabele očitamo verovatnoću da će se Z vrednost naći u intervalu između -1,08 i 0, a ona iznosi 0,3599. To znači da verovatnoća da će student imati između 50 i 63 poena iznosi 0,3599, odnosno 35,99%. Kako verovatnoća da će student imati 63 ili više poena iznosi 50%, to verovatnoća da će imati više od 50 poena iznosi: P(>50)=50+35,99=85,99%. Ovo znači i da će 85,99% studenata imati više od 50 poena, odnosno položiti ispit.

67

Mere izgleda distribucije: skjunis i kurtozis U mere izgleda distribucije spadaju skjunis (eng. skewness), odnosno zakošenost, koja predstavlja meru asimetrije i kurtozis (eng. kurtosis) koja predstavlja meru visine i oštrine distribucije. Skjunis Prva stvar na koju bi trebalo obratiti pažnju kod oblika distribucije je da li postoji jedan mod (vrh) ili više njih? Ukoliko je distribucija unimodalna, što je slučaj kod većine serija podataka, sledeće na šta bi trebalo obratiti pažnju je da li je ona simetrična ili zakošena u jednu od strana. Kada je većina vrednosti na levoj strani (većina vrednosti je niska), a desna strana je duža, tada se kaže da distribucija ima desnu ili pozitivnu zakošenost; nasuprot tome, kada je vrh pomeren udesno, a leva strana je duža, tada se kaže da je distribucija zakošena levo ili negativno. Pogledajmo dva sledeća grafikona. Na oba su prikazane distribucije sa istim vrednostima aritmetičkih sredina i standardnih devijacija, ali su njihovi oblici različiti.

Negativna zakošenost skjunis = - 0,5371

Pozitivna zakošenost skjunis = 0,5371

Kada numerička mera zakošenosti - skjunis iznosi 0, vrednosti su idealno simetrično raspoređene, što je gotovo nemoguće za bilo koje obeležje mereno u živom svetu. Vrednost skjunisa između -1 i +1 ne ukazuje na veće odstupanje od normalne distribucije, ali se smatra da su i vrednosti od -2 do +2 prihvatljive. Kurtozis Ukoliko je distribucija simetrična, sledeća stvar na koju bi trebalo obratiti pažnju je da li centralni vrh visok i oštar ili je kratak i širok? Neke zaključke možemo doneti na osnovu histograma, ali je numerička mera visine i oštrine - kurtozis mnogo preciznija. Više vrednosti kurtozisa ukazuju na viši, oštriji vrh; niže vrednosti ukazuju na niži, manje izražen vrh.

Mezokurtična

68

Leptokurtična

Platikurtična

Normalna distribucija ima vrednost kurtozisa oko nule. Svaka distribucija sa vrednošću kurtozisa ≈ 0 naziva se mezokurtična. Distribucija sa kurtozisom < 0 je platikurtična i u poređenju sa normalnom distribucijom, njen vrh je niži i širi. Distribucija sa kurtozisom > 0 je leptokurtična i u poređenju sa normalnom distribucijom, njen vrh je viši i oštriji. Kao i kod skjunisa, vrednost kurtozisa između -1 i +1 ne ukazuje na veće odstupanje od normalne distribucije, ali se smatra da su vrednosti od -2 do +2 prihvatljive.

6.5. t - distribucija Ovu vrstu rasporeda je formulisao Vilijam S Goset, poznat pod pseudonimom „Student“ pa se zove i Studentova t-distribucija. Njene karakteristike su: - Ima sličan oblik kao normalna distribucija samo što je šira i niža. t-raspored je isto simetričan u odnosu na svoju aritmetičku sredinu t=0 i zvonastog je oblika, ali se u intervalu t=0±1,96SD nalazi manje od 95% t-vrednosti, odnosno ovaj procenat tvrednosti se nalazi u širem intervalu; - Širina intervala zavisi od broja ispitanika, odnosno veličine uzorka; - Kako raste broj ispitanika t-distribucija je sve sličnija normalnoj raspodeli; - Primjenjuje se u računanju intervala pouzdanosti i testiranju hipoteza o razlici aritmetičkih sredina između dva uzorka. Razlika između Z i t-rasporeda najbolje može da se uoči iz grafikona: Standardizovana Z distribucija

Studentova t-distribucija N=4 (ss=N-1=3)

Z=-1,96 t=-3,18

95% 95%

Z=+1,96 t=+3,18

Za krivu t-distribucije ne važi sigma tri pravilo jer širina intervala u kome se nalazi 95% t-vrednosti zavisi od broja ispitanika, odnosno veličine uzorka. Što je uzorak manji to je širina intervala veća. Tako za se uzorak N=4, 95% t-vrednosti nalazi u intervalu: t =-3,18 do +3,18.

69

Na osnovu iznetih osobina Studentovog t-rasporeda izrađena je tabela za granične t-vrednosti za odgovarajuću verovatnoću i stepen slobode. Stepen Stepen Verovatnoća Verovatnoća slobode 0,95 0,99 0,999 slobode 0,95 0,99 0,999 1 12,706 63,657 636,619 22 2,074 2,819 3,792 2 4,303 9,925 31,599 23 2,069 2,807 3,768 3 3,182 5,841 12,924 24 2,064 2,797 3,745 4 2,776 4,604 8,610 25 2,060 2,787 3,725 5 2,571 4,032 6,869 26 2,056 2,779 3,707 6 2,447 3,707 5,959 27 2,052 2,771 3,690 7 2,365 3,499 5,408 28 2,048 2,763 3,674 8 2,306 3,355 5,041 29 2,045 2,756 3,659 9 2,262 3,250 4,781 30 2,042 2,750 3,646 10 2,228 3,169 4,587 40 2,021 2,704 3,551 11 2,201 3,106 4,437 50 2,009 2,678 3,496 12 2,179 3,055 4,318 60 2,000 2,660 3,460 13 2,160 3,012 4,221 70 1,994 2,648 3,435 14 2,145 2,977 4,140 80 1,990 2,639 3,416 15 2,131 2,947 4,073 90 1,987 2,632 3,402 16 2,120 2,921 4,015 100 1,984 2,626 3,391 17 2,110 2,898 3,965 150 1,976 2,609 3,357 18 2,101 2,878 3,922 200 1,972 2,601 3,340 19 2,093 2,861 3,883 300 1,968 2,592 3,323 20 2,086 2,845 3,850 500 1,965 2,586 3,310 21 2,080 2,831 3,819 1,960 2,576 3,291  Na primer, granična vrednost t za verovatnoću od 95% i stepen slobode 6 iznosi: t(0,95;6)=2,447.

6.6. Hi kvadrat (χ2) distribucija Hi kvadrat distribucija je raspodela zbira kvadrata Z vrednosti. Stepen slobode u ovoj distribuciji jednak je broju Z vrednosti čije kvadrate vrednosti sabiramo. Prema tome, Hi kvadrat distribucija sa stepenom slobode 1 je raspodela kvadrata svih pojedinačnih Z vrednosti iz standardizovane normalne distribucije. U ovoj distribuciji bi površina ispod krive za  2 =4 bila jednaka površini ispod standardizovane normalne krive za Z=2 jer je 4=22. Karakteristike  2 distribucije: - Kriva nije simetrična i zakrivljena je u desno; - Distribucija uvek ima pozitivne vrednosti; - Zavisi od broja stepeni slobode: kako raste broj stepeni slobode distribucija postaje sve više simetrična i sličnija normalnoj distribuciji; - Aritmetička sredina Hi kvadrat distribucije jednaka je stepenu slobode.

70

Na sledećem grafikonu su prikazane krive Hi kvadrat distribucija za stepene slobode 2, 4 i 6.

ss=4

ss=2

ss=6

Razmotrimo sledeći problem: Kolika je verovatnoća da će zbir kvadrata bilo koje slučajno odabrane dve Z vrednosti iz standardizovane normalne distribucije biti jednak 6 ili veći? Kako se radi o zbiru dve Z vrednosti, odgovor ćemo tražiti u Hi kvadrat distribuciji sa stepenom slobode 2. U tabeli graničnih Hi kvadrat vrednosti za određeni broj stepeni slobode i određenu verovatnoću uočavamo da za stepen slobode 2 i verovatnoću od 0,95 (95%) granična tablična Hi kvadrat vrednost iznosi 5,991 što je gotovo jednako 6. Prema tome, verovatnoća da će zbir kvadrata bilo koje slučajno odabrane dve Z vrednosti iz standardizovane normalne distribucije biti jednak 6 ili veći iznosi 100-95=5%. Deo tabele graničnih Hi kvadrat vrednosti Stepen slobode 1 2 3 4 5 6 7 8 9 10

Stepen Stepen Verovatnoća Verovatnoća Verovatnoća 0,95 0,99 slobode 0,95 0,99 slobode 0,95 0,99 3,841 6,635 11 19,675 24,725 21 32,671 38,932 5,991 9,210 12 21,026 26,217 22 33,924 40,289 7,815 11,345 13 22,362 27,688 23 35,172 41,638 9,488 13,277 14 23,685 29,141 24 36,415 42,980 11,071 15,086 15 24,996 30,578 25 37,652 44,314 12,592 16,812 16 26,296 32,000 26 38,885 45,642 14,067 18,475 17 27,587 33,409 27 40,113 46,963 15,507 20,090 18 28,869 34,805 28 41,337 48,278 16,919 21,666 19 30,144 36,191 29 42,557 49,588 18,307 23,209 20 31,410 37,566 30 43,773 50,892

71

Mnogi statistički testovi zasnivaju se na Hi kvadrat distribuciji, a najpoznatiji od njih je Hi kvadrat test kojim se porede učestalosti pojedinih modaliteta kategorijskih (atributivnih) obeležja.

6.7. F distribucija F distribucija se može definisati kao odnos između varijansi dve Hi kvadrat distribucije: 2 /n F( n , m )  2n m / m Njene karakteristike su: - Zakrivljena je prema desno; - Zavisi od broja stepeni slobode obe Hi kvadrat vrednosti; - Upotrebljava se za poređenje dve varijanse, kao i za poređenje više od dve aritmetičke sredine analizom varijanse (ANOVA). Kriva F distribucije kada stepeni slobode obe Hi kvadrat vrednosti iznose po 10 predstavljena je na sledećem grafikonu:

I za ovu vrstu distribucije je kontruisana tabela sa graničnim F vrednostima za određene verovatnoće i za određen broj stepeni slobode. Deo tabele za granične F vrednosti za nivo verovatnoće od 95% ss2/ss1 1 2 3 4 5 6 7 8 9 10 12

72

1 161,4 18,51 10,13 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,75

2 199,5 19,00 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,89

3 215,7 19,16 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,49

4 224,6 19,25 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,26

5 230,2 19,3 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,11

6 234,0 19,33 8,94 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,00

7 236,8 19,35 8,89 6,09 4,88 4,21 3,79 3,50 3,29 3,14 2,91

8 238,9 19,37 8,85 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,85

9 240,5 19,38 8,81 6,00 4,77 4,10 3,68 3,39 3,18 3,02 2,80

10 241,9 19,4 8,79 5,96 4,74 4,06 3,64 3,35 3,14 2,98 2,75

12 243,9 19,41 8,74 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,69

7. TESTIRANJE HIPOTEZA I PROCENA PARAMETARA POPULACIJE NA OSNOVU UZORKA Hipoteza predstavlja pretpostavku koja motiviše istraživanje, a testiranje hipoteze je statistički postupak kojim se kvantitativno određuje da li i koliko pouzdano raspoloživi podaci potvrđuju tu pretpostavku. U istraživanjima se formulišu dve međusobne isključive, suprotne pretpostavke o ishodu ispitivanja, a to su nulta hipoteza (Ho) i alternativna ili radna hipoteza (Ha). Najelementarnije iskazana nulta hipoteza glasi - Između aritmetikih sredina ili između proporcija nekog obeležja u dva osnovna skupa ne postoji značajna razlika. Ako razlika i postoji ona je slučajnog karaktera, a uzorci na kojima je vršeno ispitivanje se ponašaju kao da pripadaju istom osnovnom skupu. Matematički se definiše kao:

Ho : x1  x 2

ili

x1  x 2  0

Nultoj hipotezi se pridružuje alternativna ili radna hipoteza, koja tvrdi suprotno: Izmedu aritmetikih sredina ili između proporcija nekog obeležja u dva osnovna skupa postoji značajna razlika i ona nije slučajnog karaktera, već je nastala pod dejstvom sistemskih ili eksperimentalnih faktora. Matematički se definiše kao:

Ho : x1  x 2

ili

x1  x 2  0

Naravno, i jedna i druga hipoteza mogu da imaju i širi smisao, zavisno od konkretnog problema koji se rešava. Prema Ronaldu Fišeru nulta hipoteza je svaka pretpostavka koju želimo da proverimo u smislu "nulifikacije", odnosno poništenja. Statističkom metodologijom se proverava tvrdnja nulte hipoteze i uvek se polazi od pretpostavke da je ona tačna odnosno istinita i da "neka razlika" nije statistički značajna. Istinitost nulte hipoteze se utvrđuje specifičnim statističkim testovima. Ako se odgovarajućim statističkim testom, za odgovarajuću verovatnoću i prag značajnosti, utvrdi da razlika nije statistički značajna prihvata se nulta hipoteza kao tačna i istinita, a odbacuje radna hipoteza, kao neistinita i netačna. Suprotno, ako statistički test pokaže da je razlika statistički značajna, nulta hipoteza se odbacuje kao netačna i neistinita, a prihvata se radna hipoteza kao istinita i tačna. Prema tome, odgovarajućim specifičnim testom, testiramo isključivo nultu hipotezu, a alternativnu prihvatamo ili odbacujemo posredno. Bilo koji tip testiranja statističkih hipoteza može da se izvede u pet etapa: 1. Formulisanje nulte i alternativne hipoteze; 2. Odreduje se prag (nivo) značajnosti. Najčešće su to p=0,05 ili p=0,01; 3. Odreduje se adekvatan test i 4. Obradi se jedan ili više uzoraka, čije podatke koristimo za izračunavanje i 5. Na osnovu rezultata testa donosimo odluku o prihvatanju ili odbacivanju nulte hipoteze (Ho). Parametrijski testovi Parametrijske testove primenjujemo kada su vrednosti ispitivanog obeležja date numerički, odnosno kada su izmerene intervalnom ili skalom odnosa i kada iz njih možemo da izračunamo: aritmetičku sredinu, varijansu, standardnu devijaciju i standardnu grešku. Parametrijski testovi polaze od pretpostavke da je raspored unutar

73

skupa, iz koga je dobijen uzorak, normalan ili pak uzorak mora da bude veći od 30 jedinica. Od parametrijskih testova najpoznatiji je Studentov t-test. Neparametrijski testovi Pri istraživanjima i eksperimentima mogu da se dobiju podaci koji znatno odstupaju od normalnog rasporeda, ili su dati opisno pa se iz njih ne mogu da izračunaju aritmetička sredina i standardna devijacija. U ovim slučajevima, a pogotovu ako su vrednosti obeležja date opisno te raspolažemo samo frekvencijama pojedinih modaliteta obeležja, za testiranje nulte hipoteze primenjuju se tzv. neparametrijski testovi ili testovi nezavisni od rasporeda. Oni traže manje uslova i manje informacija za primenu (prednost), ali je njihova snaga (power) manja, pa su manje precizni i pouzdani.

7.1. Uzorak Osnovni skup ili populacija se sastoji od svih elemenata ili jedinica posmatranja čije karakteristike ispitujemo – pojedinaca (bića), stvari ili predmeta. Osnovni skup koji se proučava naziva se još i ciljnom populacijom. Svi elementi osnovnog skupa su istorodni, ali ne i istovetni. Kako se sastoji od svih jedinica koje su nosioci određene karakteristike (osobine, obeležja), osnovni skup sadrži sve vrednosti koje ta slučajno promenljiva može imati, a koje se mogu evidentirati merenjem ili brojanjem. Idealno bi bilo kada bi bili u mogućnosti da obeležja koja proučavamo evidentiramo za svaku jedinicu populacije i na osnovu takve evidencije izvršimo ocenu i donesemo zaključke, međutim u praksi to gotovo nikada nije moguće. Zbog toga je u statistici razrađena i racionalno određena sledeća metodologija: Donošenje sudova i zaključaka o celini pojave vrši se na osnovu proučavanja i poznavanja određenog broja statističkih jedinica, odnosno na osnovu dela osnovnog skupa - uzorka. Jedinica posmatranja ili element uzorka ili osnovnog skupa jeste određeni subjekat ili objekat (na primer: osoba, firma, predmet, država) o kojem se prikupljaju podaci, odnosno, na kojem se određena pojava statistički posmatra. Adekvatan uzorak mora da ispuni principe nepristrasnosti, reprezentativnosti i ekonomičnosti. Nepristrasnost uzorka se postiže načinom i metodama odabiranja uzorka koji su razrađeni u statističkoj praksi, a koji baziraju na teoriji verovatnoće i postavkama slučajnog kombinovanja elemenata. Reprezentativnost podrazumeva da uzorak treba da obuhvati one statističke jedinice koje će u sebi nositi sve karakteristike osnovnog skupa, odnosno one jedinice čija obeležja kada se izbroje ili izmere i iz njihovih vrednosti izračunaju odgovarajući parametri (aritmetička sredina, standardna devijacija, učestalost javljanja neke pojave i td.), oni budu isti ili približno isti kao i pravi parametri osnovnog skupa. Kvalitet, tačnost i preciznost rezultata istraživanja, tj. tačnost procene osnovnog skupa na osnovu uzorka, su direktno proporcionalni reprezentativnosti uzorka. Reprezentativnost uzorka zavisi od varijabilnosti vrednosti posmatranog obeležja unutar skupa i od veličine uzorka. Što je uzorak veći to je i njegova reprezentativnost veća, kao i preciznost i sigurnost ocene parametara osnovnog skupa.

74

Što je varijabilnost vrednosti obeležja veća, to je skup manje homogen, pa je za odgovarajuću preciznost i pouzdanost procene potreban veći uzorak. Ekonomičnost je princip koji nameću finansijska i vremenska ograničenja. Veliki uzorak zahteva više finansijskih i ljudskih resursa, kao i vremena za ispitivanje. Princip ekonomičnosti je suštinski suprotan principu reprezentativnosti.

7.1.1. Jednostavan slučajan uzorak Kada svaka jedinica iz populacije ima jednaku šansu da bude izabrana, uzorak je slučajan, randomiziran (engl. random sample). Ranije su najčešće korišćene metode za izbor slučajnog uzorka bile lutrijska metoda i izbor pomoću tablice slučajnih brojeva. Danas se za izbor slučajnog uzorka pretežno koriste računarski generatori slučajnih brojeva. Da bi se mogao izvršiti izbor statističkih jedinica, potrebno je odrediti okvir izbora, odnosno definisati populaciju iz koje se bira. Na primer, ukoliko želimo da utvrdimo kakav je stav studenata o zakonu o zaštiti od duvanskog dima, svi studenti univerziteta predstavljaju okvir izbora. Zatim je potrebno svakoj statističkoj jedinici dodeliti identifikacioni broj, u našem primeru to može biti broj indeksa, a potom se ovi brojevi koriste da bi se nekom od metoda slučajnog izbora izvršilo izdvajanje uzorka.

7.1.2. Sistematski uzorak Kada se izbor statističkih jedinica u uzorak vrši po nekom sistemu, formira se sistematski uzorak. Na primer, želimo da utvrdimo neki stav u populaciji telefonskom anketom, birajući svaki deseti broj telefona iz telefonskog imenika, pri čemu samo prvi broj izaberemo metodom slučajnog izbora. U nekim slučajevima taj način izbora nosi rizik da bude pristrasan. U primeru sa telefonskim imenikom, ukoliko anketiranje vršimo u prepodnevnim satima ispitivanjem će verovatno biti u manjem procentu obuhvaćeno radno aktivno stanovništvo. Sistematski izbor je jednostavniji od metode slučajnog uzorka, pa se u praksi često primenjuje, ali pri tome valja biti oprezan pri donošenju zaključaka o populaciji na osnovu uzorka.

7.1.3. Višestepeni uzorak Postoje slučajevi kada nije moguće primeniti izbor slučajnog uzorka zbog veličine i raširenosti populacije. Na primer, želimo da utvrdimo zastupljenost povišenog krvnog pritiska kod odraslog stanovništva cele države, koje broji 7 miliona ljudi, na uzorku od 10000 ispitanika. Mogli bi korišćenjem računara iz popisnih podataka metodom slučajnog izbora izdvojiti potrebne ispitanike. Međutim, bilo bi skupo i komplikovano poslati ispitivača da u nekom selu pregleda jednog jedinog ispitanika koji je izabran u uzorak. Zbog toga je svrsishodno prvo iz liste naselja slučajnim izborom izdvojiti određeni broj naselja u kojima će se sprovesti ispitivanje. Zatim se iz tih naselja prema popisnim podacima izabere slučajnim izborom srazmeran broj stanovnika.

75

Višestepeni uzorak daje dobre podatke za populaciju u celini, ali ne i za pojedina naselja jer broj ispitanika u njima ipak nije dovoljan za zaključivanje.

7.1.4. Stratifikovani uzorak Kada je potrebno analizirati neku pojavu u celokupnoj populaciji, ali i posebno po populacionim grupama od posebnog interesa - stratumima, formira se stratifikovani uzorak. Svaki stratum je podpopulacija koja bi trebalo da je homogena, a između pojedinih stratuma se očekuju značajne razlike. Za svaki stratum se određuje poseban slučajni uzorak. Veličina uzoraka iz stratuma je obično proporcionalna udelima stratuma u celokupnoj populaciji, ali to nije pravilo. Kada je neka pojava retko zastupljena, iz stratuma koji imaju mali broj statističkih jedinica mogu se izabrati veći uzorci nego što je njihova proporcija u populaciji. Prema tome, stratifikovani uzorci se mogu podeliti na proporcionalne i neproporcionalne. Na primer, želimo da utvrdimo prosečan dnevni kalorijski unos hranom u jednoj opštini sa 40000 stanovnika, anketirajući uzorak od 1000 ispitanika. Očekujemo da će kalorijski unos biti značajno veći kod gradskog stanovništva. Ako u gradu živi 30000 (75%), a u selima 10000 (25%) stanovnika, tada će i uzorak sadržati istu proporciju, odnosno 750 ispitanika iz grada i 250 sa sela. U drugom primeru želimo da ispitamo psihičke efekte estetske hirurgije kod operisanih osoba, a posebno smo zainteresovani za moguće razlike između muškaraca i žena. Uvidom u dokumentaciju klinike za plastičnu hirurgiju došli smo do podatka da je na lični zahtev do sada operisano 1900 (95%) žena i 100 (5%) muškaraca. Kada bi primenili formulu za adekvatnu veličinu uzorka na celokupnu populaciju od 2000 operisanih osoba, utvrdili bi da je potrebno ispitati 330 slučajno izabranih pacijenata. U proporcionalnom stratifikovanom uzorku to bi iznosilo 313 (94,85%) žena i 17 (5,15%) muškaraca. Međutim, primena ovakvog uzorka ne bi omogućila objektivno poređenje između žena i muškaraca zbog malog broja muškaraca. Zbog toga je potrebno primeniti formulu za adekvatnu veličinu uzorka posebno za žene, a posebno za muškarce. Primenom ove metode bi broj žena u uzorku iznosio 330 (80,5%), a muškaraca 80 (19,5%). Dobili smo neproporcionalni stratifikovani uzorak koji omogućava objektivno poređenje između žena i muškaraca. Primećujemo da je ukupan neproporcionalni uzorak veći za 80 ispitanika nego što bi bio proporcionalni.

7.1.5. Višefazni uzorak Upotrebljava se kada je komplikovano ili skupo sve elemente istraživanja sprovesti na svim ispitanicima iz uzorka. Tada deo istraživanja sprovodimo samo na poduzorku. Na primer, želimo da ispitamo učestalost gojaznosti kod stanovništva cele države na višestepenom uzorku od 20000 ispitanika. Između ostalog, želimo da utvrdimo i učestalost povišenog nivoa masti u serumu kod osoba starijih od 30 godina, a njih u uzorku ima 12000. Uzimanje krvi od 12000 osoba bi bila komplikovana i skupa procedura. Zbog toga odlučujemo da laboratorijska ispitivanja nivoa masti u serumu sprovedemo kod svakog desetog (10%) od njih, odnosno 1200 ispitanika starijih od 30 godina.

76

7.1.6. Klaster uzorak Sličan je višestepenom uzorku. Populacija se podeli na klastere, a zatim se za uzorak prvo slučajno izabere određen broj klastera, a zatim se iz tih klastera slučajno bira određen broj jedinica posmatranja. Klasteri predstavljaju grupe ili celine koje prirodno i fizički objedinjuju jedinice posmatranja. Primeri klastera su škole ili preduzeća. Da bi se smanjilo prostorno raspršenje jedinica posmatranja formiraju se zonski uzorci. Zone su klasteri koji su definisani geografski - opštine, naselja, mesne zajednice. Kao što smo na primeru ispitivanja učestalosti gojaznosti mogli da vidimo, pojedine vrste odabira uzoraka se mogu međusobno kombinovati. Ovo važi za sve vrste izbora, osim za jednostavni slučajni uzorak.

7.2. Distribucija aritmetičkih sredina jednakih uzoraka Zaključci koji se donose na osnovu podataka u pravilu polaze od uzorka ispitanika. Na uzorku se izvode merenja, s rezultatima tih merenja se računa, dobijaju se informacije o parametrima uzorka, a zatim se vrši generalizacija na populaciju iz koje uzorak potiče. Ako imamo jednu populaciju (osnovni skup) od N jedinica (članova): x1, x2, . . ., xN Iz te populacije odaberimo k slučajnih uzoraka od kojih svaki ima n članova: x11, x12, . . ., x1n 1. uzorak x21, x22, . . ., x2n 2. uzorak x31, x32, . . ., x3n 3. uzorak … xk1, xk2, . . ., xkn k. uzorak Aritmetičke sredine tih uzoraka su: x1 , x 2 ,.... x k i one nisu međusobno jednake, odnosno pokazuju varijabilnost. Iz ovih aritmetičkih sredina možemo da izračunamo jednu zajedničku aritmetičku sredinu svih uzoraka ( x ), kao i njihovu standardnu devijaciju ( SDuzoraka ). Zajednička aritmetička sredina svih uzoraka ( x ) istovremeno predstavlja i aritmetičku sredinu populacije, odnosno osnovnog skupa ( x os ) – prvo pravilo. Navedena tvrdnja vredi samo ako načinimo sve moguće uzorke sa n članova iz jedne populacije. Distribucija aritmetičkih sredina uzoraka iz jedne populacije će biti normalna ako je distribucija vrednosti posmatranog obiležja u populaciji normalna. Međutim, po centralnoj graničnoj teoremi distribucija aritmetičkih sredina uzoraka iz jedne populacije će biti normalna i ako distribucija vrednosti obiležja u populaciji nije normalna ukoliko su uzorci dovoljno veliki i ako je varijansa populacije, odnosno osnovnog skupa ( SDos2 ) konačan broj. Obično su za ovaj uslov zadovoljavaći uzorci veći od 30 jedinica (n>30).

77

Aritmetičke sredine jednakih malih uzoraka (n<30) dobijenih iz populacije koja ne pokazuje normalan raspored, raspoređuju se oko aritmetičke sredine populacije po Studentovoj t-distribuciji.

Kriva normalnog raspored aritmetičkih sredina jednakih uzoraka oko zajedničke aritmetičke sredine Varijansa osnovnog skupa je veća od varijanse distribucije aritmetičkih sredina svih jednakih uzoraka iz tog skupa onoliko puta, kolika je veličina uzoraka - drugo pravilo.

SDos2  n  SDuz2 Varijanse uzoraka čine takvu distibuciju oko prave varijanse osnovnog skupa, da njihova aritmetička sredina odgovara varijansi skupa – treće pravilo.

X SD uzoraka 2

 f  SD  f

2 uz

 SDos2

7.3. Standardna greška aritmetičke sredine Standardna devijacija aritmetičkih sredina uzoraka oko aritmetičke sredine populacije naziva se standardna greška aritmetičke sredine (engl. Standard Error of the Mean, SEM). Standardna greška je mera varijabilnosti aritmetičkih sredina uzoraka u odnosu na aritmetičku sredinu osnovnog skupa i kao takva predstavlja grešku kojoj se izlažemo zaključujući o populaciji na osnovu uzorka. Ona ima manju vrednost od stvarne standardne devijacije osnovnog skupa, jer su uzorci svojim aritmetičkim sredinama amortizovali izvestan stepen varijabilnosti i to onih jedinica koje imaju ekstremno male ili velike vrednosti. Standardnu devijaciju populacije po pravilu ne poznajemo jer raspolažemo podacima samo iz uzorka. Ako je uzorak slučajan i dovoljno veliki može se pretpostaviti da je standardna devijacija uzorka dobra procena standardne devijacije populacije, pa standardnu grešku aritmetičke sredine računamo kao: SD SG  uzorka n 1 Standardna greška je utoliko manja što je uzorak veći i što je varijabilnost podataka manja.

78

Standardna devijacija opisuje varijabilnost podataka, a standardna greška aritmetičke sredine opisuje preciznost procene aritmetičke sredine populacije na osnovu aritmetičke sredine uzorka. Velika standardna greška ukazuje na nepreciznu procenu, dok mala standardna greška ukazuje na preciznu procenu populacionih parametara na osnovu uzorka.

7.4. Distribucija proporcija jednakih uzoraka Proporcija statističkih jedinica u populaciji koje poseduju određenu karakteristiku takođe se procenjuje na osnovu proporcije u uzorku. Ako je n veličina uzorka, a r broj statističkih jedinica u uzorku koje poseduju određenu karakteristiku, onda je proporcija u uzorku (p): r p n Distribucija proporcija u uzorcima sledi normalnu distribuciju. Standardna greška proporcije osnovnog skupa je zapravo standardna devijacija distribucije proporcija uzoraka. Računa se kao: SG 

p  1  p 

n Mala standardna greška proporcije ukazuje na preciznu procenu.

7.5. Interval pouzdanosti Statistički parametri izračunati na osnovu podataka iz uzorka, kao što su aritmetička sredina ili proporcija, predstavljaju pojedinačne procene statističkih parametara populacije. U anglosaksonskoj literaturi se ovakva procena naziva “point estimate”, što pojedini domaći autori prevode i kao procena u jednoj tački. Na osnovu statističkog parametra uzorka, koristeći standardnu grešku, možemo, uz određenu verovatnoću proceniti interval u kome se nalazi statistički parametar populacije. Ovakva vrsta procene se naziva intervalna, a procenjeni interval u kome se nalazi statistički parametar populacije (aritmetička sredina ili proporcija) naziva se interval pouzdanosti ili interval poverenja – IP. Za izračunanje intervala pouzdanosti koristimo teorijske distribucije verovatnoće. Interval pouzdanosti proširuje procenu parametra populacije na obe strane za nekoliko standardnih grešaka. Donja i gornja granica pouzdanosti definišu interval.

7.5.1. Interval pouzdanosti (poverenja) za aritmetičku sredinu Iskazuje se kao:

xuzorka  z  SG  x os  xuzorka  z  SG pri čemu je z standardizovano odstupanje u normalnoj raspodeli.

79

Za nivo verovatnoće od 95% interval pouzdanosti za procenu aritmetičke sredine osnovnog skupa na osnovu aritmetičke sredine ispitivanog uzorka iznosi:

x uzorka  1,96  SG  x os  x uzorka  1,96  SG Sa verovatnoćom od 95% možemo da tvrdimo da će se na odstojanju od najviše 1,96 standardne greške ispod i iznad aritmetičke sredine uzorka naći aritmetička sredina osnovnog skupa. Sa verovatnoćom od 99% možemo da tvrdimo da će se aritmetička sredina osnovnog skupa naći u intervalu:

x uzorka  2,58  SG  x os  x uzorka  2,58  SG

7.5.2. Interval pouzdanosti za proporciju Iskazuje se kao:

puzorka  z  SG  pos  puzorka  z  SG Za nivo verovatnoće od 95% interval pouzdanosti za procenu proporcije osnovnog skupa na osnovu proporcije ispitivanog uzorka iznosi:

puzorka  1,96  SG  pos  puzorka  1,96  SG Prema tome, sa verovatnoćom od 95% možemo da tvrdimo da će se na odstojanju od najviše 1,96 standardne greške ispod i iznad proporcije uzorka naći proporcija osnovnog skupa. Sa verovatnoćom od 99% možemo da tvrdimo da će se proporcija osnovnog skupa naći u intervalu:

puzorka  2,58  SG  pos  puzorka  2,58  SG

7.5.3. Procena skjunisa i kurtozisa populacije na osnovu uzorka Ukoliko je u uzorku u umerenoj meri ispoljena asimetričnost to ne znači da vrednosti u populaciji nisu raspoređene po tipu normalne distribucije. Procena skjunisa u populaciji vrši se na osnovu standardizovanog skjunisa koji se izračunava kao količnik između skjunisa dobijenog iz uzorka i standardne greške skjunisa:

Standardizovani skjunis =

Skjunis u uzorku Standardna greška skjunisa

Kada je standardizovani skjunis < −1,96 sa 95% verovatnoće možemo tvrditi da u populaciji postoji negativna asimetričnost, a kada je standardizovani skjunis >1,96 sa 95% verovatnoće možemo tvrditi da u populaciji postoji pozitivna asimetričnost. Napomena: standardizovani skjunis nam ukazuje na verovatnoću postojanja asimetričnosti u populaciji, ali ne i na veličinu te asimetričnosti.

80

Identičan princip koristi se i za procenu visine distribucije u populaciji. Standardizovani kurtozis se izračunava kao količnik između kurtozisa dobijenog iz uzorka i standardne greške kurtozisa, a njegova vrednost se tumači na sledeći način: kada je standardizovani kurtozis < −1,96 sa 95% verovatnoće možemo tvrditi da je distribucija vrednosti obeležja u populaciji platikurtična, a kada je standardizovani kurtozis >1,96 sa 95% verovatnoće možemo tvrditi da je distribucija vrednosti obeležja u populaciji leptokurtična, ali ne i u kolikoj meri. Zadaci za vežbanje

1. Ispitivana je telesna visina dečaka i devojčica u prvom razredu osnovne škole. Dečaci: n=150, x =154cm, SD=11,3 Devojčice: n=160, x =142cm, SD=9,7 Konstruisati interval poveranja za jednu i drugu populaciju za p=0,95, p=0,99. 2. Prosečno vreme oporavka nakon povrede ligamenata na Klinici za rehabilitaciju u Nišu je x =33 dana i SD=4,5 dana. Sa verovatnoćom od 95% i 99% odrediti koliko je prosečno lečenje svih pacijenata u Nišavskom okrugu? 3. U junskom ispitnom roku ispit iz statistike položilo je 150 studenata medicine i 50 studenata stomatologije. Prosečna ocena studenata medicine bila je x =8,5 i SD=1,5, a studenata stomatologije x =7,5 i SD=1,5. Proceniti kolika je bila prosečna ocena svih studenta medicine i stomatologije u školskoj 2009/2010. godini? 4. Koliko se uzoraka veličine n=2, mogu dobiti uz vraćanje iz osnovnog skupa N=6 jedinica, a koliko uzoraka iste veličine bez vraćanja? 5. Iz osnovnog skupa od N=6 osoba kojima je izmeren sistolni arterijski pritisak, odaberi sve moguće uzorke veličine n=2 i konstruiši distribuciju njihove frekvencije, oko aritmetičke sredine osnovnog skupa. Osobe 1 2 3 4 5 6

Krvni pritisak 160 140 130 165 150 155

Na osnovu datih podataka dokaži: - prvo pravilo: xuzoraka  x os - drugo pravilo: SDos2  n  SDuz2 - da je SDos>SDuz

81

- Koliki se procenat uzoraka nalazi u intervalu: x os  1, 65SG - Koliko je uzorak koji ima aritmetičku sredinu od 125mmHg udaljen od aritmetičke sredine osnovnog skupa. 6. Na osnovu podataka o apsentizmu (odsutnost sa posla zbog bolesti i povreda) u jednom preduzeću izvučen je uzorak od 150 radnika. Na osnovu uzorka izračunato je prosečno godišnje odsustvovanje sa posla po jednom radniku od 29 dana sa standardnom devijacijom od 6 dana. Oceniti sa verovatnoćom od P=0,9 prosečno vreme odsustvovanja za sve radnike. 7. Istraživač je želeo da ispita potrošnju lekova u jednom okrugu u odnosu na kategoriju osiguranja: radničko, zemljoradničko i neosigurana lica i to na uzorku od 1.400 lica. Navedeni okrug je imao 750000 stanovnika od kojih: - radničko osiguranje 300.000 - zemljoradničko osiguranje 250.000 - neosigurana lica 200.000 Odredi proporcionalno učešće broja jedinica iz svakog stratuma u uzorku od 1.400 lica. 8. Ispitivana je visina holesterola u krvi kod seoske i gradske populacije i to na osnovu uzoraka: a) gradsko stanovništvo: n=800; x =4,3 i SD=0,9 b) seosko stanovništvo: n=540; x =5,2 i SD=1,0 Konstruiši intervale pouzdanosti za jednu i drugu populaciju za P=0,999. 9. Kod 30 dijabetičara na klinici za endokrinologiju u Nišu određivan je nivo glikemije, dobijene su sledeće vrednosti: H 6,2 – 7,49 7,5 – 8,79 8,8 – 10,09 10,1 – 11,39 11,4 – 12,69 12,7 – 13,99 Σ

f 6 7 4 4 6 3 30

Sa verovatnoćom od 95% odredi kolika je prosečna glikemija kod svih dijabetičara u Nišu. 10. U niškom Kliničkom centru prosečno lečenje bolesnika je 50 dana ( x =50) i SD=5. Izračunati:  Koji procenat bolesnika je lečen manje od 25 dana?  Koji procenat bolesnika je lečen od 45 do 55 dana?  Koji procenat bolesnika je lečen više od 70 dana?  Koji procenat bolesnika je lečen od 20 do 30 dana?  Proceniti kolika je prosečna dužina lečenja u svim kliničkim centrima u Srbiji sa verovatnoćom od 95%?

82

7.6. Polazne osnove za izračunavanje veličine uzorka Određivanje adekvatne veličine uzorka5 je jedan od najznačajnijih zadataka pri dizajnu ispitivanja koji može bitno da utiče na donošenje preciznih zaključaka o postojanju ili nepostojanju značajnih razlika između vrednosti numeričkih karakteristika ispitanika, učestalosti atributivnih obeležja, kao i postojanju ili nepostojanju značajnih uticaja ili interakcija između ispitivanih faktora. Procedure kojima se određuje odgovarajuća veličina uzorka baziraju na korišćenju formula ili specijalno dizajniranih tabela i dijagrama.

7.6.1. Određivanje najvažnijih obeležja ispitivanja U svakom istraživanju definišu se pretpostavljeni uzroci (nezavisno promenljive varijable) i njihove posledice (zavisno promenljive - posledične varijable), kao i jedan broj nezavisnih varijabli koje se eventualno mešaju u odnose između uzroka i posledica. Kako bi se pristupilo određivanju odgovarajuće veličine uzorka neophodno je predhodno definisati jedno ili nekoliko najvažnih obeležja koje se ispituju. To mogu biti numeričke (težina, visina, broj eritrocita...), ali i atributivne (kategorijske) promenljive (pol, školska sprema, zanimanje...). Ukoliko je moguće izdvojiti jedno najvažnije obeležje, tada ono predstavlja osnovu za izračunavanje odgovarajuće veličine uzorka i samo ono će biti uključeno u formulu. U slučajevima kada je nekoliko varijabli podjednako ili približno značajno u istraživanju, svaka od njih se uključuje u odgovarajuću posebnu formulu, a po pravilu se za adekvatnu veličinu uzorka bira najveća izračunata vrednost. Izuzetak je situacija u kojoj je prema jednoj od značajnih promenljivih potrebna veličina uzorka izrazito veća nego prema svim drugim značajnim varijablama. Tada je moguće za odgovarajuću veličinu uzorka uzeti drugu po veličini izračunatu vrednost. Kada je najvažnije obeležje ispitivanja neka kategorijska promenljiva, a pogotovo kada je to dihotomno obeležje (muški-ženski pol, oboleo-zdrav i slično), potrebna veličina uzorka je po pravilu veća nego kada je to neka numerička promenljiva.

7.6.2. Kontrola greške procene Sve formule koje se koriste za izračunavanje adekvatne veličine uzorka uključuju jedan, dva ili više kriterijuma za kontrolu greške procene rezultata dobijenih ispitivanjem uzorka, a ne populacije u celini. Statistički parametri čije je vrednosti u tu svrhu potrebno uneti u formule su različiti, a najčešće su to: verovatnoća greške tipa I, verovatnoća greške tipa II, nivo pouzdanosti, snaga studije, margine greške i granična tablična z ili t vrednost.

5

Izrazi "adekvatna veličina uzorka" i "potrebna veličina uzorka" predstavljaju najmanji broj jedinica posmatranja koja je potrebno obuhvatiti u ispitivanju, a podrazumeva se da je veći broj jedinica posmatranja ne samo dozvoljen već i preporučen ("Što više to bolje").

83

Verovatnoća greške tipa I Greška tipa I (α greška) nastaje u situaciji kada istraživač vršeći procenu na osnovu uzorka pogrešno zaključuje da postoji značajna razlika između dve grupe, dok te razlike u celoj populaciji zaista nema. Drugim rečima, nultu hipotezu bi trebalo prihvatiti, ali je zbog zaključivanja na osnovu uzorka ona odbačena. Nivo greške tipa I predstavlja verovatnoću da će biti odbačena istinita nulta hipoteza. Verovatnoća greške tipa I se naziva kriterijum statističke značajnosti i obeležava se sa p, a u istraživanjima se najčešće koriste verovatnoće greške tipa I manje od 0,05 (5%), 0,01 (1%) i 0,001 (0,1%). Nivo verovatnoće greške manji od 5% je prihvatljiv u većini istraživanja. Niži nivoi verovatnoće greške se koriste u slučajevima kada su odluke bazirane na rezultatima ispitivanja kritične, odnosno mogu da uzrokuju oštećenja zdravlja ili veće finansijske gubitke. Pri korišćenju svih statističkih testova, pored vrednosti testa izračunava se i p vrednost. Kada je ona manja od 0,05 istraživač može da zaključi da razlika koja postoji između dve grupe ispitanika u uzorku reprezentuje pravu razliku koja postoji i u populaciji, pri čemu je ispunjen kriterijum statističke značajnosti pri odbacivanju nulte hipoteze. Nivo pouzdanosti Kada je verovatnoća greške procene da razlika koja postoji između dve grupe iz uzorka odražava pravu razliku u populaciji iz koje je uzorak izabran manja od 0,05 (5%), tada je verovatnoća istinitosti procene veća od 0,95 (95%). Ovo je ujedno verovatnoća sa kojom će pri ispitivanju na uzorku biti odbačena neistinita nulta hipoteza, odnosno biti prihvaćena istinita radna hipoteza i ona se naziva nivo pouzdanosti. Zbir nivoa pouzdanosti i dozvoljenog nivoa greške tipa I iznosi 1 (100%). Prema tome, ukoliko smo se u dizajnu studije opredelili za dozvoljeni nivo greške tipa I manji od 5%, tada nam je nivo pouzdanosti veći od 95%. Margina greške procene Margina greške predstavlja polovinu širine intervala poverenja za izračunatu vrednost nekog statističkog parametra kojim vršimo procenu osnovnog skupa na osnovu uzorka. Kohran prihvatljivu marginu greške procene definiše kao rizik koji je istraživač spreman da prihvati pri proceni parametara osnovnog skupa na osnovu uzorka. U rezultatima istraživanja često se prikazuje samo jedan broj, kao što je razlika između srednjih vrednosti nekog obeležja ili razlika između dve proporcije. Statističkim testovima zatim se procenjuje značajnost ove razlike i prihvata ili odbacuje nulta hipoteza za određeni nivo verovatnoće procene. Ovakav način zaključivanja se naziva pojedinačna procena (procena u jednoj tački). Međutim, ako se pored testiranja značajnosti razlike dve vrednosti prikaže i interval poverenja (sa određenim nivoom verovatnoće, najčešće 95%) koji okružuje ovu razliku, dobija se uvid u rang mogućih vrednosti za pravu razliku, koja bi se dobila kada bi ispitivanje obuhvatilo ceo osnovni skup. Ovakav način zaključivanja se naziva intervalna procena. Osim za razlike između srednjih vrednosti i proporcija, intervali poverenja se mogu izračunati i za pojedinačne srednje vrednosti, pojedinačne proporcije, koeficijente regresije, vrednosti relativnog rizika i druge statističke parametre. Kada se u formulama za izračunavanje veličine uzorka zahteva unos margine greške procene postoji opšte pravilo da je, umesto izračunavanja intervala poverenja,

84

prihvatljivo koristiti margine greške od 5% za kategorijske podatke i od 3% za numeričke podatke. Na konkretnim primerima to bi značilo: 1) u slučaju kada izračunata razlika telesne mase između dve grupe u uzorku iznosi 1000g, prava razlika vrednosti u populaciji bi se našla u intervalu: izračunata vrednost ±3% ili 1000±30g (970 do 1030g); 2) u slučaju kada izračunata proporcija pušača u uzorku iznosi 40%, prava zastupljenost pušača bi se našla u intervalu: izračunata proporcija ±5% ot te proporcije ili 40±2% pušača (38 do 42%). Granične tablične z i t vrednosti U nekim formulama za izračunavanje veličine uzorka se umesto dozvoljenog nivoa greške tipa I zahteva unos granične tablične z ili t vrednosti. Verovatnoća greške tipa II i snaga studije Greška tipa II (β greška) nastaje u situaciji kada istraživač vršeći procenu na osnovu uzorka pogrešno zaključuje da ne postoji značajna razlika između dve grupe, dok bi analiza vršena na celokupnoj populaciji potvrdila da razlika postoji i da je statistički značajna. Drugim rečima, nultu hipotezu bi trebalo odbaciti, ali je zbog zaključivanja na osnovu uzorka ona prihvaćena. Verovatnoća da će prava razlika koja postoji između dve grupe u populaciji biti potvrđena u ispitivanju na uzorku predstavlja snagu studije. Zbir verovatnoće greške tipa II i snage studije iznosi 1 (100%). Ne postoji formalni standard za željenu verovatnoću snage studije, ali većina istraživača kao adekvatnu vrednost prihvata 0,8 (80%). Prema tome, dozvoljeni nivo greške tipa II bi tada iznosio 0,2 (20%). Određivanje snage pre početka studije (a priori) je prihvaćeno od strane većine istraživača i koristi se za izračunavanje adekvatne veličine uzorka. Post-hoc analiza se ponekad koristi da bi se utvrdila snaga već sprovedene studije i korist od ovakve analize je veoma diskutabilna.

7.6.3. Određivanje varijabilnosti ispitivanih obeležja Ključna komponenta svih formula za izračunavanje veličine uzorka je varijabilnost najvažnijeg obeležja ispitivanja. Istraživači pre početka studije ne raspolažu tačnom informacijom o varijabilnosti obeležja koje tek treba da ispituju te su prinuđeni da načine procenu, a za tu svrhu mogu poslužiti tri metode: - Korišćenje dvofaznog uzorka. U prvoj fazi se ispitivanjem obuhvata deo uzorka, odnosno sprovede se pilot istraživanje. Na osnovu prikupljenih podataka iz prve faze odredi se varijabilnost najvažnijeg obeležja i rezultat se uključuje u formulu za izračunavanje adekvatne veličine uzorka, odnosno određuje se broj ispitanika koji je potrebno obuhvatiti studijom u drugoj fazi. Ne postoje preporuke za potrebnu veličinu uzorka u prvoj fazi ispitivanja, ali statistička logika ukazuje da je 30 ispitanika za svaku od analiziranih grupa dovoljan broj. To bi značilo da ukoliko istraživač planira da studijom obuhvati jednu eksperimentalnu i jednu kontrolnu grupu, u prvoj fazi je potrebno analizirati po 30 ispitanika iz obe grupe, ukupno njih 60. Kada je u planu da istraživanje poredi obeležja iz 3 grupe, u prvoj fazi bi bilo obuhvaćeno 90 ispitanika6. 6

U slučajevima kada je u dizajnu studije predviđeno da u okviru grupa postoje podgrupe, pri izračunavanju adekvatne veličine uzorka je svaku od podgrupa potrebno tretirati kao posebnu grupu.

85

- Korišćenje podataka iz predhodnih istraživanja na istoj ili sličnoj populaciji. - Procena varijabilnosti uz pomoć matematičkih procedura. Prve dve metode koriste stvarne podatke i produkuju validne procene varijabilnosti obeležja. Međutim, u nekim istraživanjima nije moguće primeniti nijednu od tih metoda. Tada se za procenu varijabilnosti obeležja mora primeniti treći metod, odnosno sprovesti matematičko izračunavanje. Objasnićemo dve najjednostavnije procedure i to za procenu varijabilnosti dihotomnih kategorijskih obeležja, kao i numeričkih obeležja čija se vrednost dobija na osnovu stepenovanih skala. Kada je najvažnije obeležje ispitivanja dihotomna promenljiva (muški-ženski pol, oboleo-zdrav i sl.) varijansa za svaki od dva modaliteta obeležja izračunava se jednostavnim kvadriranjem proporcije tog modaliteta. Kako su nam pre ispitivanja proporcije modaliteta nepoznate, preporučuje se da predpostavljena proporcija svakog od dva modaliteta obeležja u populaciji bude 0,5 (50%). Time se dobija maksimalna vrednost varijanse, a samim tim i maksimalna potrebna veličina uzorka, odnosno izbegava se mogućnost da uzorak bude manji od potrebnog. Prema tome, u slučajevima kada nismo u mogućnosti da na drugi način procenimo varijabilnost dihotomnog obeležja, kao predpostavljenu varijansu svakog od dva modaliteta koristimo vrednost od 0,25 (0,52=0,25 ili 25%). U slučaju kada je najvažnije obeležje ispitivanja numeričko obeležje čija se vrednost dobija na osnovu skale, u proceni varijanse prvo je potrebno definisati broj stepenova skale. Na primer, ako je najvažnije obeležje ispitivanja subjektivno zdravstveno stanje, a ono se procenjuje na osnovu odgovora datih na pitanje iz upitnika: "Ocenite svoje zdravlje ocenom od 1 do 10", broj stepenova skale iznosi 10. Zatim se broj stepenova skale podeli sa 6 jer se predpostavlja da će po 3 standardne devijacije sa svake strane stvarne srednje vrednosti skale, ma kolika ona bila, obuhvatiti 99% odgovora koji bi se dobili kada bi cela populacija bila obuhvaćena ispitivanjem. Izračunati količnik predstavlja standardnu devijaciju skale, a kvadrat količnika je varijansa skale. U našem primeru desetostepene skale, procenjena standardna devijacija skale bi iznosila 10/6=1,67, a varijansa 1,672=2,79.

7.6.4. Obuhvat uzorka istraživanjem U nekim slučajevima je prilikom izračunavanja adekvatne veličine uzorka potrebno unapred uzeti u obzir mogućnost da sve odabrane osobe neće pristati da učestvuju u ispitivanju. To se najčešće događa pri anketiranju. Sličan problem nastaje i kada neki ispitanici odustanu u toku samog istraživanja ili iz njega moraju da budu isključeni iz raznih razloga (predomisle se, razbole se i td.). Zbog ovakve mogućnosti deo autora pri izračunavanju veličine uzorka dodaje određen procenat potrebnih ispitanika (oversampling). Ukoliko se odluči na povećanje uzorka istraživaču stoje na raspolaganju dve logične i prihvatljive metode, koje su u osnovi slične kao i pri određivanju varijabilnosti najvažnijeg obeležja, a to su: a) korišćenje dvofaznog uzorka - pilot studije i b) korišćenje podataka iz predhodnih istraživanja na istoj ili sličnoj populaciji. Za razliku od procene varijabilnosti uz primenu matematičkih procedura, procena obuhvata nema izgrađene egzaktne metode i nije preporučljiva.

86

7.7. Određivanje adekvatne veličine uzorka 7.7.1. Aritmetička sredina ili proporcija osnovnog skupa Postoje brojne formule za izračunavanje adekvatne veličine uzorka na osnovu čije aritmetičke sredine ili proporcije za neko obeležje bi se vršila procena kolika je stvarna aritmetička sredina ili proporcija tog obeležja u celokupnoj populaciji. One zahtevaju predhodno izračunavanje standardne devijacije vrednosti obeležja na pilot uzorku i ovakvo određivanje varijabilnosti se može smatrati validnim jer koristi stvarne podatke. Međutim, u formule je potrebno uneti i procenjeno odstupanje srednje vrednosti uzorka od stvarne aritmetičke sredine u populaciji ili procenjenu proporciju javljanja neke pojave, a njih ne znamo, odnosno na osnovu uzorka i želimo da ih odredimo. Ovakav postupak je već diskutabilan. Zbog toga je od strane mnogih istraživača prihvaćen jednostavniji način određivanja adekvatnog uzorka za procenu aritmetičke sredine ili proporcije osnovnog skupa, a to je korišćenje tabela i nomograma. Tabela za određivanje veličine uzorka na osnovu veličine populacije predložena od strane Bartleta, Kotrlika i Higinsa Veličina uzorka Numerički podaci Kategorijski podaci Veličina (margina greške=0,03) (margina greške=0,05) populacije p=0,05 p=0,01 p=0,05 p=0,01 t=1,96 t=2,58 t=1,96 t=2,58 100 55 68 80 87 200 75 102 132 154 300 85 123 169 207 400 92 137 196 250 500 96 147 218 286 600 100 155 235 316 700 102 161 249 341 800 104 166 260 363 900 105 170 270 382 1000 106 173 278 399 1500 110 183 306 461 2000 112 189 323 499 4000 119 209 362 598 6000 119 209 362 598 8000 119 209 367 613 10000 119 209 370 626 Primeri: a) Želimo da utvrdimo prosečnu vrednost indeksa radne sposobnosti kod 43 radnika iz neke firme. Kolika je adekvatna veličina uzorka?

87

U tabeli je najmanja veličina populacije 100. Za ovu, kao i za manje populacije potrebna veličina uzorka za numeričke podatke i za nivo greške procene manji od 0,05 iznosi 55, a za nivo greške procene manji od 0,01 adekvatna veličina uzorka je 68 ispitanika. Međutim, kako je broj zaposlenih u firmi manji od 55, ispitivanje je potrebno sprovesti na svim radnicima. b) Kolika je adekvatna veličina uzorka za procenu prosečnog broja eritrocita kod 350 učenica jedne srednje škole? Kako u tabeli nemamo veličinu populacije od 350 koristićemo prvu veću vrednost, a to je 400. Za numeričke podatke i za nivo greške procene manji od 0,05 potrebna veličina uzorka je 92 učenice, a za nivo greške procene manji od 0,01 adekvatna veličina uzorka je 137 učenica. c) Kolika je adekvatna veličina uzorka za procenu prosečne gustine kostiju kod 10450 žena starih od 50 do 54 godine u nekom gradu? Populacija prevazilazi najveću vrednost u tabeli koja iznosi 10000. Međutim, uočavamo da se za numeričke podatke potrebna veličina uzorka ne menja sa porastom veličine populacije već od 4000. Prema tome, za nivo greške procene manji od 0,05 potrebna veličina uzorka je 119 žena, a za nivo greške procene manji od 0,01 adekvatna veličina uzorka je 209 žena. d) Koja je potrebna veličina uzorka za procenu zastupljenosti hipertenzije kod 1650 lekara na nekom okrugu? Kako u tabeli nemamo veličinu populacije od 1650 koristićemo prvu veću vrednost, a to je 2000. Za kategorijske podatke i za nivo greške procene manji od 0,05 potrebna veličina uzorka je 323 lekara, a za nivo greške procene manji od 0,01 adekvatna veličina uzorka je 499 lekara.

7.7.2. Procena razlike između dve srednje vrednosti Najjednostavnija formula za izračunavanje potrebne veličine uzorka za procenu razlike između dve srednje vrednosti glasi: t 2   SD12  SD22  Formula broj 1 n 2 x1 - x 2





gde je: n - broj statističkih jedinica, t - granična tablična t vrednost, SD12 - standardna devijacija prvog uzorka,

SD22 - standardna devijacija drugog uzorka, x1 - aritmetička sredina prvog uzorka, x 2 - aritmetička sredina drugog uzorka. Primer: Potrebno je da uporedimo efikasnost dva leka – A i B u lečenju arterijske hipertenzije u studiji koja će trajati 3 meseca. Želimo nivo pouzdanosti pri zaključivanju veći od 95%, odnosno dopuštamo nivo greške tipa I manji od 5%. Kao glavni pokazatelj istraživanja definišemo razliku u visini pritiska pre početka primene terapije i na kraju istraživanja. Koja je potrebna veličina uzorka?

88

Rešenje: I Pored vrste terapije, na visinu krvnog pritiska utiču i mnogi drugi faktori, od kojih su najpoznatiji: starija životna dob, gojaznost, pol, konzumiranje alkoholnih pića, nedovoljna fizička aktivnost, povećan unos kuhinjske soli, nizak nivo kalijuma u ishrani, pušenje i pozitivna porodična anamneza. Najjednostavniji način za kontrolu uticaja svih navedenih faktora je uparivanje ispitanika poređenih grupa u odnosu na ispoljenost tih faktora, odnosno primena uparenih uzoraka (matched samples). Na taj način će jedina razlika između grupa biti u leku koji će koristiti, a zaključak o efikasnosti lekova A i B će biti validan. II Da bi mogli da primenimo formulu za izračunavanje adekvatne veličine uzorka neophodne su nam prosečne vrednosti najvažnijeg obeležja ispitivanja, kao i njegove standardne devijacije za obe poređene grupe. Kako tim podacima ne raspolažemo, potrebno je u prvoj fazi sprovesti pilot studiju. Već je navedeno da je 30 ispitanika za svaku od poređenih grupa dovoljan broj u prvoj fazi ispitivanja. III Sproveli smo pilot studiju na dve grupe od po 30 ispitanika. U prvoj grupi, koja je u terapiji koristila lek A, prosečna razlika u visini pritiska pre početka primene terapije i na kraju istraživanja je iznosila 22mmHg sa standardnom devijacijom od 7mmHg, a u drugoj grupi, koja je dobijala lek B, 25mmHg sa standardnom devijacijom od 9mmHg. IV Za verovatnoću greške tipa I od 5%, odnosno za nivo pouzdanosti od 95% i za stepen slobode od 58 (s.s.=n1+n2-2=30+30-2=58) granična tablična t vrednost je 2,0. V Sada raspolažemo vrednostima svih parametara potrebnih za izračunavanje adekvatne veličine uzorka i unesemo ih u formulu: t 2   SD12  SD22  22   7 2  92  4   49  81    57,8  58 n 2 2 9  22 - 25 x1 - x 2





Potrebno je ispitati 58 pacijenata iz osnovnog skupa obolelih od hipertenzije koji u terapiji koriste lek A i 58 pacijenata koji u terapiji koriste lek B, odnosno adekvatna veličina ukupnog uzorka iznosi 116 statističkih jedinica. Kako smo već ispitali po 30 pacijenata, u drugoj fazi istraživanja je neophodno ispitati još po 28 pacijenata.

7.7.3. Procena razlike između dve proporcije Najkorišćeniju formulu za izračunavanje potrebne veličine uzorka za procenu razlike između dve proporcije predložio je Flejs i ona glasi: p  q  p2  q2 2 Formula broj 2  2 nC 1 1 2 p1 - p2 p1 - p2 gde je: C – konstanta, p1 – proporcija javljanja neke pojave u prvoj grupi (od 0 do 1), q1 – proporcija nepojavljivanja te pojave u prvoj grupi (q1=1-p1), p2 – proporcija javljanja pojave u drugoj grupi, q2 – proporcija nepojavljivanja pojave u drugoj grupi (q2=1-p2),

89

Vrednost konstante C zavisi od dozvoljenog nivoa grešaka tipa I i II: Nivo greške tipa I Nivo greške tipa II 0,05 0,01 0,20 7,85 11,68 0,10 10,51 14,88 Primer: Želimo da uporedimo učestalost gojaznosti kod gradske i seoske dece starosti od 8 do 11 godina. Dopuštamo nivo greške tipa I manji od 0,05, a nivo greške tipa II od 0,20. Potrebno je odrediti adekvatnu veličinu uzorka. Rešenje: I Da bi mogli da primenimo formulu potrebne su nam učestalosti prekomerne telesne težine kod gradske i seoske dece. Kako tim podacima ne raspolažemo, neophodno je u prvoj fazi sprovesti pilot studiju. Kako želimo da ispitujemo zastupljenost pojave koja nije retka, smatramo da je 30 ispitanika za svaku od poređenih grupa dovoljan broj u prvoj fazi ispitivanja. II Sproveli smo pilot studiju na dve grupe od po 30 ispitanika. Kod gradske dece gojaznost je potvrđena u 6 (20,0%), a kod seoske u 4 (13,33%) slučaja. Prema tome, proporcija kod gradske dece iznosi p1=0,20, a kod seoske p2=0,13. Odatle: q1=1p1=1-0,20=0,80, a q2=1-p2=1-0,13=0,87. III Vrednost konstante C za željeni nivo greške tipa I manji od 0,05 i nivo greške tipa II od 0,20 iznosi: C=7,85. IV Unesemo sve potrebne vrednosti u formulu za izračunavanje veličine uzorka: 0, 20  0,80  0,13  0,87 2 n  7,85    2  468,09  468 2 0, 20  0,13 0, 20  0,13 Potrebno je ispitati 468 deteta iz gradske i 468 iz seoske sredine. Kako smo već ispitali po 30 deteta, u drugoj fazi istraživanja je neophodno ispitati još po 438 deteta.

7.7.4. Poređenje više od dve grupe ispitanika Najjednostavniji način za određivanje potrebne veličine uzorka u slučajevima kada poredimo tri i više grupa ispitanika je definisanje dve grupe koje su nam najvažnije u istraživanju. Tada ćemo za izračunavanje veličine uzorka primeniti jednu od već prikazanih metoda kada poredimo dve grupe ispitanika, a u zavisnosti od toga da li poredimo numeričke vrednosti ili proporcije. U formule uključujemo vrednosti parametara dve najvažnije grupe, a izračunati broj potrebnog broja ispitanika primenjujemo za sve poređene grupe. Primer: Želimo da poredimo učestalost gojaznosti kod učenika osnovnih škola, srednjih škola i studenata. Rešenje: I Definišemo da su nam rezultati kod učenika osnovnih i srednjih škola značajniji nego oni kod studenata i izvršimo pilot studiju sa po 30 ispitanika iz ove dve grupe. II Unesemo parametre dobijene iz pilot studije u formulu za izračunavanje veličine uzorka za procenu razlike između dve proporcije (formula broj 2). Ako je

90

rezultat formule, na primer 50, zaključujemo da je potreban broj ispitanika za sve tri grupe po 50, a kako smo već ispitali po 30 učenika osnovnih i srednjih škola u drugoj fazi studije ćemo analizirati 50 studenata i po 20 učenika osnovnih i srednjih škola. III Kada bi nam glavni pokazatelj istraživanja bio numerička vrednost indeksa mase tela (BMI), tada bi njene prosečne vrednosti i standardne devijacije za učenike osnovnih i srednjih škola dobijene na osnovu podataka iz pilot studije uneli u formulu za izračunavanje veličine uzorka za procenu razlike između dve srednje vrednosti (formula broj 1).

7.7.5. Zavisni uzorci U situacijama kada ista grupa ispitanika predstavlja i eksperimentalnu i kontrolnu grupu, odnosno kada se na njoj vrši ispitivanje pre i posle protoka određenog vremena (najčešće pre i posle neke intervencije), govorimo o zavisnom uzorku. Zaključivanje na osnovu zavisnog uzorka ima veću pouzdanost nego zaključivanje na osnovu nezavisnih uzoraka jer se pri tome vrši mnogo bolja kontrola svih individualnih pridruženih faktora, koji se za vreme studije ne menjaju ili su promene neznatne (nasleđe, starost, težina, pušenje, konzumiranje alkoholnih pića, školska sprema, socijalni status...). Zbog toga je i potrebna veličina zavisnih uzoraka manja nego veličina nezavisnih uzoraka.7 Snedekor i Kohran su predložili formulu za izračunavanje adekvatne veličine zavisnog uzorka za slučaj kada je glavno obeležje ispitivanja kontinuirana numerička promenljiva: 2

 SD  Formula broj 3 n  2  C    x  gde je: n - broj statističkih jedinica, SD - standardna devijacija razlika nastalih između dva merenja,

x - aritmetička sredina razlika nastalih između dva merenja, C - konstanta (sa vrednostima koje se primenjuju u formuli br. 2). Primer: Želimo da utvrdimo da li će se stepen depresivnosti kod obolelih od angine pektoris, izražen kroz vrednosti skale za depresivnost, značajno umanjiti u toku tri meseca ukoliko se u terapiju uvede lek A. Koja je potrebna veličina uzorka za dozvoljeni nivo greške tipa I manji od 0,05, a nivo greške tipa II od 0,10? Rešenje: I Sproveli smo pilot studiju u kojoj je učestvovalo 30 obolelih od angine pektoris. Izračunali smo da je prosečno umanjenje vrednosti skale kod njih posle uvođenja leka A u terapiju iznosilo 0,81, a standardna devijacija tog umanjenja je bila 1,66. 7

Ova metoda se odnosi na situacije kada je u studijama analizirana samo jedna grupa ispitanika pre i posle neke intervencije, a cilj ispitivanja je da se utvrdi da li intervencija izaziva značajne promene vrednosti nekog obeležja. Metod se ne odnosi na situacije kada studija obuhvata dve ili više grupa ispitanika, a cilj je da se utvrdi da li se promene vrednosti nekog obeležja nastale usled intervencije značajno razlikuju između poređenih grupa. U takvim slučajevima se adekvatna veličina uzorka određuje primenom formule broj 1 u koju se unose prosečne razlike vrednosti pre i posle intervencije, kao i standardne devijacije tih razlika, za svaku od poređenih grupa.

91

II Vrednost konstante C za željeni nivo greške tipa I manji od 0,05 i nivo greške tipa II od 0,10 iznosi: C=10,51. III Unesemo sve potrebne vrednosti u formulu za izračunavanje veličine uzorka: 2

 1,66  n  2  10,51     46,14  46  0,81  Prema tome, potrebna veličina uzorka je 46 obolelih. Kako smo već ispitali 30 pacijenata, neophodno je u drugoj fazi studije ispitati još njih 16.

7.7.6. Korelaciona i regresiona analiza Postoje formule za izračunavanje veličine uzorka kada je potrebno ispitati da li između različitih numeričkih obeležja u jednoj grupi ispitanika postoji značajna korelacija. Međutim, u ove formule je potrebno uneti vrednost unapred predpostavljenog koeficijenta korelacije, što je u velikom broju slučajeva veoma diskutabilno. Zbog toga je, umesto korišćenja ovakvih formula, definisano nekoliko pravila za određivanje neophodnog broja ispitanika kako bi rezultat korelacione ili regresione analize bio validan, a u ovom priručniku navodimo ona koja se najčešće primenjuju, kako za univarijantnu, tako i za multivarijantnu analizu: a) Najpoznatije pravilo predlaže po 20 ispitanika za svaku nezavisno promenljivu uključenu u analizu. To znači da je za utvrđivanje korelacije između dva obeležja dovoljno 20 ispitanika. Ukoliko pak želimo da procenimo uticaj, na primer 3 nezavisno promenljive na zavisno promenljivu primenom multivarijantne regresione analize potrebno je istraživanje sprovesti na: n=3x20=60 ispitanika. b) Prema Tabakniku i Fidelu za regresionu analizu je istraživanje potrebno sprovesti na: n=104+m ispitanika, gde je m broj nezavisno promenljivih. Prema ovom pravilu bi za univarijantnu analizu bilo neophodno: n=104+1=105 ispitanika, a za multivarijantnu sa 3 nezavisno promenljive: n=104+3=107 ispitanika. c) Kada nam je u regresionoj analizi značajno i tumačenje vrednosti koeficijenta determinacije (R2), odnosno kada želimo da procenima koliki procenat varijabilnosti vrednosti zavisno promenljive je uzrokovan promenama vrednosti nezavisno promenljivih koje su uključene u multivarijantni model, potreban broj ispitanika iznosi: n=50+8m. To bi značilo da je za univarijantnu analizu neophodno: n=50+8x1=58 ispitanika, a za multivarijantnu sa 3 nezavisno promenljive: n=50+8x3=74 ispitanika.

7.7.7. Analiza vremena do nastanka događaja (analiza preživljavanja) Analiza vremena do nastanka nekog događaja (engleski: survival analyse), kao što su povrede, ozdravljenja, dostizanje željenog rezultata i sl., uključuje složene statističke modele, kao što su životne tabele (life tables), Kaplan-Majerova metoda ili Koksova regresiona analiza, ali izračunavanje adekvatne veličine uzorka za ovakva ispitivanja je relativno jednostavno. I u ovim slučajevima je u prvom koraku potrebno odrediti proporcije nastupanja događaja kod ispitanika u poređenim grupama, a zatim te proporcije uneti u formulu broj 2. Kako su ovo najčešće prospektivne studije, a vreme

92

praćenja može trajati i nekoliko godina, racionalnije je koristiti podatke iz predhodnih studija nego sprovoditi dugotrajno pilot istraživanje. Drugi metod podrazumeva unošenje prosečne dužine i standardne devijacije vremena do nastupanja događaja kod dve poređene grupe u formulu broj 1. Ovakav pristup, međutim, zahteva da praćenje mora da traje dok događaj ne nastupi kod svih ispitanika u obe grupe. To takođe znači da je verovatnoća da će događaj nastupiti kod svih ispitanika 100%, pa je metod primenljiv samo kod ispitivanja gde je očekivani događaj izvestan (na primer, ozdravljenje ili oporavak kod lakših bolesti ili povreda). Primer: Želimo da ispitamo da li vrsta fizikalne terapije (A ili B) značajno utiče na dužinu oporavka posle moždanog udara. Pri dizajnu studije određujemo da će vreme praćenja iznositi 10 meseci. Osim vrste terapije želimo da procenimo da li na oporavak značajno utiču i drugi faktori, kao što su: starost, pol, BMI i td. Prema tome, primenićemo Kaplan-Majer-ovu i Koksovu regresionu analizu. Dopuštamo nivo greške tipa I manji od 0,05, a nivo greške tipa II od 0,20. Rešenje: I Kako vreme praćenja iznosi 10 meseci, a pri tome i ne očekujemo da će potpuni oporavak nastupiti kod svih ispitanika, racionalnije je da umesto sprovođenja pilot studije za određivanje adekvatne veličine uzorka koristimo rezultate predhodnih istraživanja. II Konsultujemo literaturu i nalazimo da primena terapije A dovodi do zadovoljavajućeg oporavka kod oko 60% pacijenata (p1=0,60), dok primena terapije B dovodi do oporavka kod oko 70% ispitanika (p2=0,70) u periodu primene od 10 meseci. Odatle: q1=1-p1=1-0,60=0,40, a q2=1-p2=1-0,70=0,30. III Vrednost konstante C za željeni nivo greške tipa I manji od 0,05 i nivo greške tipa II od 0,20 iznosi: C=7,85. IV Unesemo sve potrebne vrednosti u formulu broj 2: nC

p1  q1  p2  q2 p1 - p2

2



2 0,6  0, 4  0,7  0,3 2  2  7,85    2  375, 25  375 2 p1 - p2 0,6 - 0,7 0,6 - 0,7

Prema tome, validne zaključke o uticaju vrste terapije na dužinu oporavka posle moždanog udara dobićemo ukoliko u istraživanje uključimo dve grupe od po 375 pacijenata.

7.7.8. Korišćenje nomograma Nomogrami predstavljaju grafičke prikaze numeričkih relacija. Njihova primena je raznovrsna, a između ostalog, konstruisani su i mnogi nomogrami za brzo određivanje adekvatne veličine uzorka. U ovom priručniku prikazaćemo primenu nomograma koji je 1985. godine prezentovao stručnoj javnosti dr Relja Petrović, lekar tadašnjeg Zavoda za zaštitu zdravlja u Nišu. On se može koristiti za utvrđivanje velikih slučajnih nestratifikovanih uzoraka za procenu srednje vrednosti ispitivanih obeležja u osnovnom skupu. Nomogram se preporučuje zbog jednostavne primene i stručne opravdanosti njegove upotrebe. Sastoji se od mreže konstruisane između dveju logaritamskih osa – apscise, na kojoj je predstavljena populacija, i ordinate, na kojoj je procenat optimalnog uzorka, i linije nomograma koja određuje granicu. Upotreba: Za određivanje veličine uzorka za zadatu populaciju stanovnika potrebno je na apscisi pronaći tačku koja označava tu populaciju, zatim podići vertikalu

93

do nomogramske linije, a onda vratiti ulevo do ordinate i pročitati procenat zahvata na ordinati. Nomogram za odredjivanje optimalnog uzorka 100

Uzorak (% zahvata)

10

1

0.1

0.01 10

100

1000

10000

100000

1000000

Populacija

10000000

100000000

1000000000

Autor: Dr Relja Petrović

Primer: Potrebno je odrediti adekvatnu veličinu uzorka za procenu dugotrajnog delovanja aerozagađenja na zdravlje u gradu čija populacija broji 250000 stanovnika. Rešenje: Na apscisi pronađemo tačku koja označava populaciju od 250000 stanovnika. Podižemo vertikalu do nomogramske linije, a onda vratimo ulevo do ordinate i očitavamo procenat koji iznosi 1,5%. To praktično znači da za populaciju od 250000 stanovnika optimalni uzorak iznosi 1,5%, odnosno 3750 ispitanika. Nomogram za odredjivanje optimalnog uzorka 100

Uzorak (% zahvata)

10

1

0.1

0.01 10

100

1000

10000

100000

Populacija

94

1000000

10000000

100000000

1000000000

Autor: Dr Relja Petrović

7.7.9. Internet kalkulatori Na internetu se mogu naći brojni kalkulatori za izračunavanje adekvatne veličine uzorka, praktično za sve načine testiranja nulte hipoteze: poređenja numeričkih vrednosti i proporcija, regresione analize, analizu varijanse, ponovljena merenja, analizu preživljavanja i td. Upotreba većine ovih kalkulatora je danas besplatna. Svi oni sadrže kraća uputstva za primenu, a deo njih i formule po kojima se vrši izračunavanje. Da bi mogli biti primenjeni u kalkulatore je potrebno uneti statističke parametre za glavne promenljive u istraživanju (srednje vrednosti, standardne devijacije, proporcije), kao i dozvoljeni nivo greške tipa I i II, odnosno željeni nivo pouzdanosti i snagu studije. Kao i za primenu formula navedenih u ovom udžbeniku, i za internet kalkulatore je neophodno do statističkih parametara glavne promenljive doći na osnovu pilot istraživanja ili na osnovu rezultata predhodnih istraživanja. Ovde će biti prikazana primena samo jednog internet kalkulatora, pod nazivom Istraživačev komplet alata (Researcher's toolkit), što nikako ne predstavlja isključivu preporuku autora jer je izbor zaista veoma veliki. Ovaj kalkulator se može primeniti za izračunavanje potrebne veličine uzorka za procenu srednje vrednosti ili proporcije osnovnog skupa, kao i za poređenje srednjih vrednosti ili proporcija između dve grupe ispitanika, a nalazi se na adresi: http://www.dssresearch.com/toolkit/sscalc/size.asp. Procena razlike između dve srednje vrednosti

Primer: Želimo da uporedimo indeks radne sposobnosti kod radnika u odnosu na nivo školske spreme: visoka - srednja/viša. Procenu vršimo primenom skale čije su vrednosti od 7 (slab) do 49 (odličan). Pilot studija sprovedena na dve grupe od po 30 ispitanika je pokazala da kod radnika sa visokom školskom spremom prosečan indeks radne sposobnosti iznosi 40±6, a 95

kod onih sa srednjom i višom školskom spremom 42±4. Definisali smo dozvoljeni nivo greške tipa I (α greška) od 5%, a greške tipa II (β greška) od 20%. Rešenje: Izaberemo opciju Averages (aritmetičke sredine), Two Samples (dva uzorka) i unesemo potrebne statističke parametre u predviđena polja kalkulatora. Pritiskom na taster Calculate Sample Size (izračunaj veličinu uzorka) dobijamo da je potrebno ispitati 80 radnika sa visokom i 80 sa srednjom ili višom školskom spremom (veličina uzorka iznosi 80 za oba uzorka – Sample Size = 80 for both samples!). Kako smo već ispitali po 30 radnika, u drugoj fazi istraživanja je neophodno ispitati još po 50. Procena razlike između dve proporcije

Primer: Želimo da uporedimo procenat korišćenja psihoaktivnih supstanci kod učenika srednjih škola i studenata. Sproveli smo pilot istraživanje na dve grupe od po 30 ispitanika i korišćenje psihoaktivnih supstanci je potvrđeno od strane 2 (6,7%) učenika i 3 (10,0%) studenta. Dopuštamo nivo α greške manji od 5% (nivo pouzdanosti u zaključivanju je tada veći od 95%), a nivo β greške manji od 20% (snaga studije je tada veća od 80%). Rešenje: Izaberemo opciju Percentages (procenti), Two Samples (dva uzorka) i unesemo potrebne statističke parametre u predviđena polja kalkulatora. Pritiskom na taster Calculate Sample Size (izračunaj veličinu uzorka) dobijamo:

Potrebno je ispitati dve grupe od po 868 ispitanika. Kako smo već ispitali po 30, u drugoj fazi istraživanja je neophodno ispitati još 838 učenika i 838 studenata.

96

8. OSNOVE KORIŠĆENJA PROGRAMSKOG PAKETA SPSS Programski paket SPSS (Statistical Package for Social Sciences), koji od verzije 17.0 ima naziv PASW (Predictive Analytics SoftWare) ima sledeće komponente: 1. Programe koji: učitavaju podatke, izvode analize i daju ispise rezultata 2. Fajlove sa podacima (.sav) 3. Fajlove sa ispisima (.spo) i 4. Komandne tj. sintaksne fajlove (.sps) Program se pokreće iz Start menija komandama: All Programs/SPSS for Windows/SPSSxx.x for Windows (za verzije do 17.0) ili All Programs/SPSS inc/PASW Statisticsxx (za verzije od 17.0)

Iz programa se izlazi klikom na znak X (u gornjem desnom uglu) ili odabirom komandi File pa Exit iz menija programa. Pokretanjem programa otvara se Glavni prozor, koji se sastoji od tabele za podatke, menija programa sa komandama od File do Help i nekoliko komandnih ikona.

97

Podaci se unose u tabelu, odnosno matricu reda nm u kojoj su redovi ispitanici, slučajevi, entiteti ili jedinice posmatranja, a kolone su obeležja, svojstva, atributi, tj. varijable. Pojedine kolone ili redovi nazivaju se vektori. Podaci se mogu upisivati direktno u tabelu, ali ih je moguće i učitati iz standardnih baza podataka (Excel, Dbase, Access...) ili iz bilo kojeg standardnog editora, ukoliko su sačuvani u ASCII formatu (American Standard Code for Information Interchange). Tabela editora podataka podeljena je u redove koji su označeni brojevima i kolone koje su označene sa var. Da bi počeli unos podataka potrebno je predhodno kreirati i definisati varijable. Kliknuti mišem na naslov prve kolone var, a zatim desnim klikom miša otvoriti skraćeni meni. Izborom opcije Insert Variable naziv kolone se menja u var00001, a u ovako kreiranu varijablu je sada moguće unositi podatke.

Glavni prozor SPSS programa se sastoji od dva radna lista koji se nalaze jedan iznad drugoga. List koji vidimo kada pokrenemo program i koji smo do sada opisivali naziva se Data View - Pogled na podatke. List u kome se vrši definisanje varijabli naziva se Pogled na varijable – Variable View. Njega pokrećemo klikom na jezičak u donjem levom uglu Glavnog prozora.

Po automatizmu SPSS novoformiranoj varijabli dodeljuje naziv var00001, definiše je kao numeričku, određuje joj širinu od 8 cifara sa još dva decimalna mesta i daje joj desno poravnanje.

98

Svaku od ovih karakteristika možemo promeniti prema svojim potrebama i namerama. Naziv varijable možemo promeniti kada mišem kliknemo na ćeliju sa već zadatim imenom var00001. Naziv može sadržati slova (samo engleska) i brojeve, ali mora početi slovom. U starijim verzijama programa naziv je mogao sadržati do 8 slovno-brojnih oznaka, dok novije verzije podržavaju do 41 oznake. Naziv ne sme sadržati prazna mesta, slova ć, č, ž, š i đ, kao i simbole (/, *, !, $, %, &, =, ?, +, -....). Definisanje tipa varijable (numerička, tekst - string, datum ...) vrši se u ćeliji Type, širine u ćeliji Width, a broja decimalnih mesta u ćeliji Decimals. Varijable tipa String ne mogu se koristiti u računanju. Preporučljivo je da se kvalitativne (kategorijske) varijable kodiraju numerički. Na primer, bolje je umesto kategorija MUŠKI i ŽENSKI u varijabli POL unositi cifre 1 i 2 ili 0 i 1. Label – služi za preciznije definisanje oznake varijable. Ova oznaka može sadržati prazna mesta, odnosno odvojene reči i zbog toga se u ispisu rezultata pojavljuje umesto imena varijable upisanog u polje Name. Kada je polje Label prazno u ispisu rezultata se pojavljuje naziv upisan u polju Name. Na primer, kao Name možemo upisati: OKZ, a kao Label: Skor objektivnog kvaliteta zivota. U polju Value (vrednost) mogu se definisati značenja kodova koji su dodeljeni pojedinim kategorijama kvalitativnih varijabli. Na primer, ukoliko smo u varijabli POL kategoriji MUŠKI dodelili kod 1, a kategoriji ŽENSKI kod 2, da ne bi pamtili šta koji kod znači, a i da bi se adekvatni nazivi kategorija pojavili u ispisu rezultata, kliknemo mišem na polje Value i otvara se sledeći dijalog prozor:

99

U polje Value upisuje se vrednost koda 1, a u polje Value Label (oznaka vrednosti) upisuje se značenje koda, u ovom slučaju MUSKI. Klikom na Add (dodaj) ova definicija oznake vrednosti koda će biti potvrđena i uneta u prostor na dnu dijalog prozora. Proceduru ponovimo i za kod 2, odnosno kategoriju ZENSKI. Dijalog prozor zatvaramo klikom na Continue (nastavi). Ukoliko želimo da izmenimo neku od definicija naziva vrednosti koda, kliknemo na nju, načinimo ispravku u poljima Value i Value Label, a zatim kliknemo na Change (izmeni).

Uklanjanje neke od definicija naziva vrednosti koda vrši se tako što kliknemo na nju, a zatim na komandu Remove (ukloni). Missing – služi za definisanje nedostajućih podataka. Column – služi za definisanje formata ispisa varijable u tabeli. Measure – omogućava definisanje merne skale sa koje dolaze podaci na datoj varijabli. Posle definisanja varijabli klikom na prvu ćeliju možemo pristupiti unosu podataka. Na druge ćelije prelazimo ili strelicama za pomeranje kurzora ili klikom miša na njih. Uneti podaci se trajno zapisuju naredbom Save (sačuvaj) iz File menija. Pri prvom zapisivanju pokreće se opcija Save As... (sačuvaj kao) i tom prilikom je potrebno dati ime fajlu sa podacima. Preporuke Prva kolona u tabeli bi trebalo da sadrži redni broj statističke jedinice. Druga kolona bi trebalo da sadrži oznaku grupe u kojoj se nalazi statistička jedinica. Ukoliko grupe sadrže podgrupe, potrebno je uvesti posebnu kolonu “Podgrupa”. Svaka podgrupa ima svoju posebnu oznaku. Uvođenje većeg broja podgrupa umanjuje snagu zaključivanja jer standardna greška zavisi od veličine uzorka, a pri poređenju vrednosti nekog obeležja između različitih podgrupa, svaka od njih se podrazumeva kao poseban uzorak.

100

Učitavanje podataka iz standardnih baza

Biramo: File/ Open/ Data...

Otvara se prozor Open File. U polju Files of type iz padajućeg menija biramo tip baze u kojoj su traženi podaci, a u polje File name upisujemo njeno ime. Komandom Open podaci se učitavaju u prozor za podatke SPSS programa.

101

9. STUDENTOV T-TEST U poglavlju o testiranu hipoteza smo naveli da parametrijske statističke testove možemo da primenimo u onim slučajevima kada su vrednosti ispitivanog obeležja date numerički, odnosno kada su izmerene intervalnom ili skalom odnosa i kada od parametara možemo da izračunamo aritmetičku sredinu, varijansu, standardnu devijaciju i standardnu grešku. Drugi uslov za njihovu primenu je da je raspored vrednosti unutar skupova iz kojih su dobijeni uzorci normalan ili pak uzorci moraju da budu veći od 30 jedinica. Studentov t-test je parametrijski test koji se koristi za procenu statističke značajnosti razlike između dve aritmetičke sredine. Postoji šest tipova t – testa:  t – test razlike između aritmetičke sredine osnovnog skupa i uzorka  t – test razlike između aritmetičkih sredina dva mala nezavisna uzorka  t – test razlike između aritmetičkih sredina dva mala zavisna uzorka  t – test razlike između aritmetičkih sredina dva velika nezavisna uzorka  t – test razlike između aritmetičkih sredina dva velika zavisna uzorka  t – test proporcije Primenom svakog od ovih tipova testa izračunava se t-vrednost, koja u osnovi predstavlja količnik razlike između dve aritmetičke sredine i standardne greške procene te razlike, odnosno pokazuje koliko je puta neka razlika veća od sopstvene greške procene. Svaki od ovih tipova ima posebnu formulu za izračunavanje t-vrednosti, ali se sve one mogu uopšteno prikazati kao:

t

X1  X 2 SGX 1  X 2

Za njegovo realizovanje potrebno je poznavati sledeće parametre uzoraka koje poredimo: njihovu veličinu (n), standardnu devijaciju (SD) i aritmetičku sredinu ( X ). Ukoliko se razlike aritmetičkih sredina uzoraka simetrično raspoređuju oko prave razlike u populaciji, onda je logično da i njihove standardne greške imaju normalan raspored oko prave greške, pa mogu da se aproksimiraju normalnim standardizovanim rasporedom. Tumačenje izračunate (realizovane) t-vrednosti bazira se na poređenju sa graničnim t-vrednostima za odgovarajuću verovatnoću greške procene (prag statističke značajnosti) i stepen slobode, koje se mogu očitati iz tabele graničnih vrednosti trasporeda. U tumačenju izračunate t-vrednosti važe sledeća pravila: - Ako je realizovana t-vrednost manja od granične tablične vrednosti za odgovarajući broj stepena slobode i prag značajnosti, nulta hipoteza se prihvata kao tačna, a odbacuje se alternativna hipoteza.  t-realizovano < t(SS i 0,05)  Ho se ne odbacuje jer je rizik da smo načili grešku procene veći od 5% (p>0,05)

102

- Ako je realizovana t-vrednost jednaka ili veća od granične tablične vrednosti, za odgovarajući broj stepena slobode i prag značajnosti, nulta hipoteza se odbacuje kao netačna, a prihvata se alternativna hipoteza:  t-realizovano  t(SS i 0,05)  odbacuje se nulta hipoteza za nivo rizika p=0,05, odnosno za nivo sigurnosti P=0,95 (95%)  t-realizovano  t(SS i 0,01)  odbacuje se Ho i za nivo rizika p=0,01, odnosno za nivo sigurnosti P=0,99 (99%). Sa povećanjem uzorka t-raspored se približava standardizovanom normalnom z-rasporedu, i kod velikih uzoraka (n>30 ili n1+n2>60 jedinica) poprima sve osobine ovog rasporeda i t-vrednost se "ponaša" kao z-vrednost. Kod velikih uzoraka gornja pravila o prihvatanju ili neprihvatanju H0 se uprošćavaju i ne zahtevaju primenu tablice Studentovog t-rasporeda, već se zaključivanje zavisno od nivoa dozvoljene granice greške vrši na sledeći način: za p=0,05 Ako se razlika nalazi u intervalu 0±1,96SG nije značajna; t<1,96 i Ho se prihvata; p>0,05 Ako se razlika nalazi izvan intervala 0±1,96SG značajna je; Ho se odbacuje; p<0,05

za p=0,01 Ako se razlika nalazi u intervalu 0±2,58SG nije značajna; t<2,58 i Ho se prihvata; p>0,05 Ako se razlika nalazi izvan intervala 0±2,58SG značajna je; Ho se odbacuje i za nivo p<0,01

Oblasti statistički značajne razlike za p<0,01 Pri računarskom sprovođenju t-testa ne postoje posebne verzije testa za velike i male uzorke, kao ni t-test proporcije. Prema tome, kod korišćenja računarskih programa imamo tri varijante t-testa i one se primenjuju za testiranje razlika između aritmetičkih sredina: - populacije i uzorka, - dva nezavisna uzorka i - dva zavisna uzorka.

103

9.1. t-test razlike između aritmetičkih sredina osnovnog skupa i uzorka Uslov za primenu ovog testa je da je aritmetička sredina osnovnog skupa iz iskustva poznata ili da je to unapred propisana vrednost (na primer, u medicini propisane normalne vrenosti eritrocita, holesterola, krvnog pritiska, bilirubina, uree itd.). Osnovni skup za ove "normalne" vrednosti predstavljaju zdrave osobe. Pri izračunavanju t-vrednosti nije potrebno poznavanje varijanse osnovnog skupa, pa je ovaj tip testa praktičniji od z–testa, jer se testiranje hipoteze o aritmetičkoj sredini osnovnog skupa najčešće odvija u uslovima kada je varijansa osnovnog skupa nepoznata. U tim uslovima varijansu osnovnog skupa procenjujemo na osnovu varijanse uzorka, odnosno grešku ocene aritmetičke sredine osnovnog skupa izračunavamo na osnovu standarne devijacije uzorka po obrascu:

SG 

SDuz n 1

gde je n-1 - stepen slobode.

Pod uslovom da osnovni skup uma normalan raspored ili da je n>30, a varijansa osnovnog skupa nije poznata, testiranje hipoteze zasniva se na statistici Studentovog t-testa, koji se izračunava po obrascu: X uz  X os t SDuz n 1 gde je X osnovnog skupa hipotetična, unapred poznata vrednost. Formula za t-vrednost u ovom testu je:

t

X uz  X os SG

pri čemu je:

SG 

SDuz n 1

Stepen slobode se određuje po formuli: S.S.=n-1 U tumačenju izračunate t-vrednosti i ovde važe pravila:  t-realizovano < t(SS i 0,05), prihvata se Ho, a odbacuje Ha, p>0,05,  t-realizovano  t(SS i 0,05) ,odbacuje se Ho, a prihvata Ha, p < 0,05,  t-realizovano  t(SS i 0,01) , odbacuje se Ho, a prihvata Ha i za nivo p < 0,01. Primer: Normalne vrednosti holesterola kod zdravih osoba se kreće od 3,1-5,8 mmol/L, tako da je x os =3,1+5,8/2=4,45. Odabran je zatim uzorak od 21 (n=21) dijabetičara, određen holesterol i dobijene su vrednosti: x uz =5,88 i SD=0,64. Osnovno pitanje je da li se vrednost holesterola nalazi u granicama normale, odnosno da li se njihova prosečna vrednost od 5,88 značajno razlikuje od proseka osnovnog skupa, odnosno od 4,45. Problem rešavamo testiranjem razlike, pa zato izračunamo kolika je ta razlika: X uz  X os  5,88  4, 45  1, 43mmol / L

104

1. Postavljamo hipoteze: Ho: Razlika od 1,43 mmol/L holesterola nije statistički značajna već je posledica dejstva slučajnih faktora i ima karakter slučajne varijabilnosti. Uzorak se ponaša kao da pripada osnovnom skupu zdravih. Ha: Razlika od 1,43 mmol/L holesterola je statistički značajna i verovatno je posledica uticaja dijabeta, tako da uzorak ne pripada osnovnom skupu zdravih. 2. Izračunavamo t-vrednost:

SG 

t

SDuz n 1



0,64 21  1

 0,14

X uz  X os 5,88  4, 45   10, 21 SG 0,14

3. Stepen slobode je: SS=n-1=21-1=20 Za broj stepena slobode 20 i prag značajnosti od 0,05 u tablicama očitavamo da je t=2,09, a za isti broj stepena slobode i za p=0,01 granična tablična vrednost je t=2,84.

105

t = 10,21 > t(20 i 0,05) = 2,09 i p<0,05 t = 10,21 > t(20 i 0,01) = 2,84 i p<0,01

Kako je realizovana t-vrednost od 10,21 veća od granične tablične vrednosti, t=2,09, za broj stepeni slobode 20 i prag značajnosti od p=0,05, to odbacujemo nultu i prihvatamo alternativnu hipotezu sa greškom p<0,05 i sigurnošću P>95% tvrdimo da kod dijabetičara holesterol pokazuje znatno veće vrednosti nego kod zdravih osoba. To je verovatno posledica dejstva same bolesti. Uzorak od 21 dijabetičara prema visini holesterola ne pripada osnovnom skupu zdravih.

Kako je realizovana t-vrednost od 10,21 veća i od granične tablične vrednosti t=2,84, za broj stepeni slobode 20 i prag značajnosti od p=0,01, to odbacujemo nultu i prihvatamo alternativnu hipotezu i za stepen verovatnoće tvrdnje P>99% i tvrdimo da kod dijabetičara holesterol pokazuje znatno veće vrednosti nego kod zdravih osoba. U SPSS-u se ovaj zadatak radi na sledeći način:

Izaberemo komande: Analyze / Compare Means / One-Sample T Test (Analiza / Poređenje aritmetičkih sredina / t-test za jedan uzorak)

Otvara se radni prozor u kome su sa leve strane nazivi svih varijabli, u ovom slučaju samo HOLESTEROL. Markiramo varijablu i klikom na strelicu prebacimo je u polje Test Variable(s). U polje Test Value upisujemo prosečnu vrednost test varijable u populaciji, u ovom slučaju to je 4,45. Kliknemo na OK

106

U Output-u (ispisu) se dobijaju sledeće tabele: One-Sample Statistics

N holesterol

Mean 21

Std. Deviation

5.8857

0.64287

Std. Error Mean 0.14029

One-Sample Test Test Value = 4.45

holesterol

t 10.234

df

Sig. (2-tailed) 20 .000

Mean Difference 1.43571

95% Confidence Interval of the Difference Lower Upper 1.1431 1.7283

U prvoj ispisnoj tabeli je deskriptivna statistika varijable holesterol u uzorku: N (veličina uzorka) – 21; Mean (aritmetička sredina) – 5,8857; Std. Deviation (SD) – 0,64287 i Std. Error Mean (SG aritmetičke sredine) – 0,14029. U drugoj tabeli prikazani su: izračunata t-vrednost (10,234), broj stepeni slobode (20), p vrednost (0,000), razlika između aritmetičke sredine u uzorku i vrednosti u populaciji (1,43571) i granice 95% intervala poverenja za procenu stvarne razlike, koja bi se dobila kada bi svi dijabetičari bili testirani (donja granica: 1,1431, gornja granica: 1,7283). P vrednost od 0,000 ukazuje da je razlika od 1,43571 statistički značajna na nivou greške procene manjem od 0,1% (p<0,001), odnosno da ispitivani dijabetičari imaju značajno veće vrednosti holesterola od 4,45. Obe granične vrednosti 95% IP su veće od nule, što potvrđuje predhodni zaključak.

107

9.2. t-test razlike između aritmetičkih sredina dva velika nezavisna uzorka Testira značajnost razlike između prosečnih vrednosti dva velika nezavisna uzorka. t-vrednost se izračunava po formuli:

t

X1  X 2 SD12 SD22  n1  1 n2  1

gde su: X 1 - aritmetička sredina jednog uzorka (obično se prvo uzima veća vrednost da bi se izbegao negativan predznak) SD12 - varijansa istog uzorka n1 - veličina prvog uzorka X 2 - aritmetička sredina drugog uzorka SD22 - varijansa drugog uzorka n2 - veličina drugog uzorka uz uslov: n>30 ili n1+n2>60 Stepen slobode se određuje po formuli: S.S = n1 + n2 – 2. Primer: Ispitivana je visina holesterola u krvi kod populacije seoskog i gradskog stanovništva. Merenje je izvršeno na slučajnim uzorcima odraslog stanovništva i kod 200 stanovnika sa sela prosečna vrednost holesterola iznosila je X =7,5 mmol/L, a SD = 0,91. Kod 250 ispitanika iz grada prosečna visina holesterola bila je X = 6,73, a SD= 0,85. Da li postoji značajna razlika izmedju proseka visine holesterola kod gradskog i seoskog stanovništva i da li je ona posledica razlike u načinu ishrane ili je posledica slučajnog karaktera? Ho: 7,5 – 6,73 = 0,77 nije statistički značajna razlika Ha: 7,5 – 6,73 = 0,77 je značajna razlika i posledica je različitog načina ishrane

t

X1  X 2 2 1

2 2

SD SD  n1  1 n2  1



7,5  6,73 0,912 0,84 2  200  1 250  1

 9,16

t = 9,16 > t = 1,96 i p<0,05 Kako je realizovana t-vrednost od 9,16 veća od granične vrednosti t=1,96 za prag značajnosti od p=0,05, to odbacujemo nultu i prihvatamo alternativnu hipotezu sa greškom p<0,05 i sigurnošću P>95% tvrdimo da je razlika između prosečne visine holesterola seoskog i gradskog stanovništva statistički značajna. To je verovatno posledica razlike u načinu ishrane.

108

t = 9,16 > t = 2,58 i p<0,01 Kako je realizovana t-vrednost od 9,16 veća i od granične vrednosti t=2,84 za prag značajnosti od p=0,01, to odbacujemo nultu i prihvatamo alternativnu hipotezu sa greškom p<0,01 i verovatnoćom P>99%. U SPSS-u se zadatak radi na sledeći način: Pre izračunavanja testa napomena da treba formirati grupnu varijablu u kojoj se šifriraju (kodiraju) ispitivane grupe, tj. u redovima u kojima su ispitanici sa sela u rubrici grupne varijable upisuje se šifra selo, a za ispitanike iz grada šifra grad. Vrednosti holesterola svih ispitanika (i onih sa sela i onih iz grada) date su u varijabli holesterol. Da bi se aktivirao t test za nezavisne uzorke treba otići u Analyse / Compare Means / Independent-Samples T Test.

Nakon toga pojavljuje se sledeći prozor:

U Test Variable treba prebaciti varijablu koju ispitujemo, tj. varijablu holesterol. U Grouping Variable treba prebaciti grupnu varijablu u kojoj smo šifrirali seosko i gradsko stanovništvo, tj. varijablu sifra.

109

Sada treba definisati kako su šifrirane grupe ispitanika. Klikne se na Define Groups i pojavi se sledeći prozor:

U Group 1 upiše se šifra prve grupe ispitanika, tj. selo, a u Group 2 druge grupe, tj. grad.

Klikne se na Continue, zatim u glavnom radnom prozoru na OK i u Output-u se dobiju rezultati. U prvoj tabeli je deskriptivna statistika za oba uzorka (selo i grad), tj. seoskog i gradskog stanovništva: veličina uzorka - N, X , SD i SG. U drugoj tabeli u redu Equal variances assumed (predpostavljene jednake varijanse) čitamo vrednost t testa (u koloni t) i grešku p (u koloni Sig. 2-tailed).

110

Independent Samples Test Levene's Test for Equality of Variances

t-test for Equality of Means 95% Confidence Interval of the Difference

F holesterol

Equal variances assumed Equal variances not assumed

Sig. 3.892

t 0.049

df

Sig. (2-tailed)

Mean Difference

Std. Error Difference

Lower

Upper

9.235

448

.000

.76687

.08304

.60368

.93006

9.166

413.026

.000

.76687

.08367

.60240

.93134

9.3. t-test razlike između aritmetičkih sredina dva velika zavisna uzorka Ako se eksperiment izvodi po metodu jedne grupe (jednog uzorka) gde je istovremeno grupa i kontrolna i eksperimentalna, onda se vrednosti ispitivanog obeležja mere i izračunavaju parametri pre delovanja eksperimentalnog faktora. To je tzv. nulta faza merenja. Zatim se grupa podvrgava eksperimentalnom faktoru i po završetku eksperimenta mere se vrednosti istog obeležja i izračunavaju parametri. U postupku se dalje testira razlika između parametara pre i nakon delovanja eksperimentalnog faktora. Međutim, u proceduri ne može da se kod iste osobe (kod istog objekta) isključi zavisnost vrednosti koje nastaju pri dejstvu eksperimentalnog faktora od početnih vrednosti. Između ovih vrednosti postoji izvestan stepen korelacije, pa se u formulu za izračunavanje t testa uvodi i faktor korelacije tj. vrednost koeficijenta linearne korelacije, kao relativne mere stepena korelacije. Vrednost t testa kod dva velika zavisna uzorka zavisi i od vrednosti koeficijenta linearne korelacije, pa obrazac ima izraz:

Način izračunavanja u SPSS-u će biti prikazan kod t-testa razlike između aritmetičkih sredina dva mala zavisna uzorka, a računarski postupak je istovetan.

111

9.4. t-test razlike između aritmetičkih sredina dva mala nezavisna uzorka Koristi se za testiranje značajnosti razlike aritmetičkih sredina dva mala nezavisna uzorka, čije se aritmetičke sredine osnovnog skupa raspoređuju u vidu Studentovog t rasporeda.

Njegova formula je: t

x1  x 2

n1  1SD

 n2  1SD22 n1  n2 n1  n2  2 n1  n2 2 1

Data formula za t-test može se primeniti i za testiranje razlike aritmetičkih sredina dva velika nezavisna uzorka, ali ne i obrnuto. Pri tumačenju realizovane t-vrednosti obavezna je primena i Studentovih tablica t-rasporeda Stepen slobode se određuje po formuli: S.S = n1 + n2 –2. Ako je:  t-realizovano < t(SS i 0,05), prihvata se Ho, a odbacuje Ha, p>0,05,  t-realizovano  t(SS i 0,05) ,odbacuje se Ho, a prihvata Ha, p< 0,05,  t-realizovano  t(SS i 0,01) , odbacuje se Ho, a prihvata Ha i za nivo p< 0,01. Primer: Izmeren je radijalni puls kod dve grupe od po 10 pacijenata. Jedna grupa je imala ugrađen pejsmeker, a druga nije imala. Dobijene su sledeće vrednosti: Sa pejsmejkerom N

X1

X

1 2 3 4 5 6 7 8 9 10

60 68 70 78 66 71 62 73 69 72 689

3600 4624 4900 6084 4356 5041 3844 5329 4761 5184 47723



2 1

Bez pejsmejkera

X2

X 22

67 72 72 84 69 80 68 74 78 81 745

4489 5184 5184 7056 4761 6400 4624 5476 6084 6561 55819

Da li postoji statistički signifikantna razlika između proseka radijalnog pulsa kod ove grupe pacijenata?

112

Moraju se izračunati aritmetičke sredine i standardne devijacije za obe grupe, prema već poznatim obrascima:

X1 

X

SD1 

SD2 

1

n1



X

2 1

n1

X n1

2 2

689  68,9 10

X2 

X n2

2



745  74,5 10

2

47723  68,9 2  5,01 10

2

55819  74,5 2  5,63 10

 X1 

X2 

Sada se može pristupiti testiranju hipoteza: Ho: 74,5 - 68,9 = 5,6 nije statistički značajna razlika; Ha: 74,5 - 68,9 = 5,6 statisticki je značajna razlika i posledica je ugradnje pejsmejkera. 5,6 5,6 x1  x 2   2,35 t  2,38 n1  1SD12  n2  1SD22 n1  n2 9  5,012  9  5,63 2 20  18 100 n1  n2  2 n1  n 2 SS = n1 + n2 -2 = 10 + 10 - 2 = 18

113

Za SS = 18 i za p = 0,05 granična tablična vrednost je t = 2,10 t = 2,35 > t (18 i 0,05) = 2,10 i p < 0,05

Kako je realizovana t-vrednost od 2,35 veća od granične tablične vrednosti t=2,10, za broj stepeni slobode 18 i prag značajnosti od p=0,05, to odbacujemo nultu hipotezu i prihvatamo alternativnu sa greškom p<0,05 i sigurnošću od P>95% tvrdimo: razlika od 5,6 između prosečnog radijalnog pulsa pacijenata sa i bez pejs mejkera je statistički značajna. t = 2,35 < t (18 i 0,01) = 2,88 i p > 0,01

Realizovana t-vrednost od 2,35 manja je od granične tablične vrednosti t=2,88, za broj stepeni slobode 18 i prag značajnosti od p=0,01, tako da ne možemo tvrditi i sa sigurnošću većom i od 99% da je razlika signifikantna. U SPSS-u se t test razlike između aritmetičkih sredina dva mala nezavisna uzorka radi kao i t test za dva velika nezavisna uzorka.

9.5. t-test razlike između aritmetičkih sredina dva mala zavisna uzorka Da bi se izbeglo izračunavanje koeficijenta linearne korelacije, kod dva mala zavisna uzorka primenjuje se posebna tehnika izračunavanja, poznata kao t-test diferencije. Princip "diferencije" sastoji se u tome da se niz individualnih razlika, tretira kao poseban uzorak, za koga se izračunava X diferencije , SDdiferencije i SGdiferencije. Vrednost t-testa se dobija, kao količnik aritmetičke sredine diferencije ( X diferencije ) i standardne greške diferencije (SGdiferencije) pa je njegova formula:

t

x

dif

SG dif

Pri tumačenju realizovane t-vrednosti obavezna je primena i Studentovih tablica t-rasporeda. Stepen slobode se određuje po formuli: S.S = n - 1. Primer: Izmeren je sistolni pritisak u mmHg kod 11 fudbalera, neposredno pre i neposredno posle odigrane utakmice. Dobijene su sledeće vrednosti: fudbaler Pre Posle

114

1 128 137

2 132 135

3 138 136

4 120 130

5 140 148

6 135 140

7 135 140

8 140 140

9 145 150

10 135 134

11 148 150

Da li postoji statistički značajna razlika u sistolnom krvnom pritisku fudbalera pre i posle utakmice? Ho: Ne postoji signifikantna razlika u sistolnom pritisku fudbalskog tima pre i posle utakmice Ha: Postoji signifikantna razlika u sistolnom pritisku fudbalskog tima pre i posle utakmice Da bi izračunali t-vrednost neophodno je formirati sledeću radnu tabelu: Fudbaler 1 2 3 4 5 6 7 8 9 10 11 Σ

Sistolni pritisak pre ( X 1 ) posle ( X 2 ) 128 137 132 135 138 136 120 130 140 148 135 140 135 140 140 140 145 150 135 134 148 150

X 2  X1

d   X 2  X 1   X dif

d2

9 3 -2 10 8 5 5 0 5 -1 2 44

94 5 3  4  1  2  4  6 10  4  6 84  4 5 4 1 5 4 1 0  4  4 5 4 1  1  4  5 2  4  2

25 1 36 36 16 1 1 16 1 25 4 162

44 4 11

X dif 

X dif 

 X

2

 X1 

n



0

44  4 mmHg predstavlja prosečnu promenu vrednosti 11

pritiska po jednom fudbaleru, u ovom slučaju to je povećanje.

SDdif 

  X

2

 X 1   X dif



2

n SGdif 

t

SDdif n



3,84 11





d n

2



162  3,84 11

3,84  1,16 3,32

X dif 4   3, 45 SGdif 1,16

S.S.=n-1=11-1=10

115

t = 3,45 > t (10 i 0,05) = 2,23 i p < 0,05 t = 3,45 > t (10 i 0,01) = 3,17 i p < 0,01 Kako je realizovana t-vrednost od 3,45 veća od granične tablične vrednosti t=2,23 za broj stepeni slobode 10 i prag značajnosti od p=0,05, ali i od granične tablične vrednosti t=3,17 za prag značajnosti od p=0,01 to odbacujemo nultu i prihvatamo alternativnu hipotezu i sa greškom procene manjom od 1% (p<0,01), odnosno sa verovatnoćom većom od 99% (P>99%) tvrdimo da postoji signifikantna razlika u sistolnom pritisku fudbalskog tima pre i posle utakmice. U SPSS-u se testiranje razlike između aritmetičkih sredina zavisnih uzoraka vrši na sledeći način: Da bi se aktivirao t test za zavisne uzorke treba otići u Analyse/Compare Means/Paired-Samples T Test.

U radnom prozoru se obeleži varijabla sa vrednostima pre eksperimenta, tj. varijabla pre i njeno ime se pojavljuje u Current Selection na mesto prve varijable (Variable 1). Zatim se klikne na varijablu posle i njen naziv se pojavljuje na mestu druge varijable (Variable 2).

116

Tako uparene vrednosti pre i posle eksperimenta se prebace u Paired Variables.

Klikne se na OK i u Output-u dobijaju tri tabele sa rezultatima: Paired Samples Statistics

Pair 1

pre posle

Mean 136.0000 140.0000

N

Std. Deviation 11 7.74597 11 6.70820

Std. Error Mean 2.33550 2.02260

Paired Samples Correlations N Pair 1

pre & posle

11

Correlation .854

Sig. .001

Paired Samples Test Paired Differences 95% Confidence Interval of the Difference

Pair 1

pre - posle

Mean Std. Deviation -4.00000 4.02492

Std. Error Mean 1.21356

Lower -6.70398

Upper -1.29602

t -3.296

df 10

Sig. (2-tailed) .008

U prvoj ispisnoj tabeli su prikazane vrednosti aritmetičkih sredina po merenjima (136:140), broj parova vrednosti (11), standardne devijacije (7,75:6,71) i standardne greške aritmetičkih sredina (2,33:2,02). U drugoj tabeli je dat koeficijent korelacije između vrednosti koje su izmerene u dva merenja. Vrednost koeficijenta od 0,854 i p=0,001 ukazuju na veoma visok nivo korelacije između vrednosti u različitim situacijama kod istih ispitanica. t-vrednost od 3,296 i p-vrednost od 0,001 (p<0,01), koje vidimo u trećoj tabeli, pokazuju da je razlika srednjih vrednosti između dva merenja koja iznosi 4,00±4,02 statistički značajna. Granice 95% IP od 6,704 i 1,296 pokazuju kolika bi bila stvarna razlika kada bi svi ovakvi slučajevi u populaciji bili testirani.

117

9.6. t-test proporcije Na istim principima na kojima se testira i ocenjuje razlika između dve aritmetičke sredine može da se oceni i značajnost razlike između dve proporcije. Proporcije mogućih jednakih uzoraka dobijenih iz istog osnovnog skupa, raspoređuju se u vidu binomnog rasporeda oko prave proporcije skupa. Kada su uzorci veći od 30 jedinica i kada je verovatnoća "povoljnog" događaja blizu vrednosti od 0,5 mogu da se koriste tablice normalnog rasporeda. Za distribuciju proporcija uzoraka, kao i za aritmetičke sredine uzoraka, može da se izračuna standardna greška proporcije, koja pokazuje koliko je proporcija nekog uzorka udaljena od prave proporcije osnovnog skupa, odnosno što je važnije - koliko je prava proporcija osnovnog skupa udaljena od proporcije uzorka. Ako je uzorak dovoljno veliki (n>30, neki smatraju i n>100), obrazac za standardnu grešku proporcije je:

SG p 

pq n

SG p 

ili

p  1  p  n

gde je: n - veličina uzorka, a p i q - proporcije dihotomnih modaliteta, odnosno p je relativno (proporcionalno) učešće posmatranog modaliteta u uzorku. Standardnu grešku razlike proporcija dva uzorka, izračunavamo kao koren iz zbira kvadrata grešaka proporcija:

SG p1  p2 

p1  q1 p 2  q 2 ili  n1 n2

SG p1  p2 

p1  1  p1  p 2  1  p 2   n1 n2

Da bi se pokazala statistička značajnost razlike proporcija dva uzorka (p1 - p2) i odbacila nulta hipoteza kod proporcija, ta razlika mora da bude odgovarajući broj puta veća od njene standardne greške pa je obrazac za t-test razlike proporcija dva velika nezavisna uzorka:

t

p1  p 2 p1  q1 p 2  q 2  n1 n2

Zaključak se donosi na sledeći način:  t-realizovano < t = 1,96, prihvata se Ho a odbacuje Ha, p>0,05,  t-realizovano  t = 1,96 ,odbacuje se Ho a prihvata Ha, p < 0,05,  t-realizovano  t = 2,58, odbacuje se Ho a prihvata Ha i za nivo p < 0,01. Primer: U grupi od 150 muškaraca od hipertenzije je obolelo 45, a u grupi od 200 žena iste starosne dobi od hipertenzije je bolovalo 70. Da li postoji statistički značajna razlika među polovima po zastupljenosti hipertenzije? H0: Ne postoji signifikantna razlika između zastupljenosti hipertenzije kod mučkaraca i žena

118

Ha: Postoji signifikantna razlika između zastupljenosti hipertenzije kod mučkaraca i žena U postupku najpre izračunavamo proporcije za oba uzorka:

45  0,3 ; q1  1  p1  0,7 150 70 p2   0,35 ; q 2  1  p 2  0,65 200

p1 

Diferencija = p2 – p1 = 0,35 – 0,3 = 0,05 ili 5% Iz dobijenih vrednosti sledi: t = 0,99 < t = 1,96 i p > 0,05 Kako je dobijena vrednost t=0,99 manja od 1,96, ne postoji statistički značajna razlika između zastupljenosti hipertenzije kod muškaraca i žena. Nulta hipoteza nije odbačena jer je p>0,05. Kod t testa razlike proporcija dva velika zavisna uzorka u obrazac se uvodi korektivni faktor zbog korelacije među posmatranim modalitetima, pa formula glasi:

t

p1  p 2 p1  q1 p 2  q 2   2r12 n1  1 n2  1

p1  q1 p 2  q 2  n1 n2

Na ilustraciji t testa razlike između proporcija dva mala uzorka nećemo se zadržavati, jer se u praksi znatno više upotrebljava neparametrijski 2 test.

119

Zadaci za vežbanje

1. U porodilištu u Nišu je izmereno 70 novorođenčadi i dobijene su sledeće vrednosti: X  3450 g , SD=280g. Na osnovu raznih istraživanja, postavljena je hipoteza da prosečna težina novorođenčadi u Nišu iznosi X  3400 g . Da li se izmerena telesna težina 70 novorođenčadi razlikuje od poznatog proseka za ceo grad? 2. Izvršeno je merenje telesne visine dečaka trećeg razreda dve osnovne škole u Nišu i dobijeni su sledeći rezultati: Škola A

n=290 X  138,3

SD = 6,3

Škola B n=320 X  141,1 SD = 7,2 Da li se prosečne telesne visine dečaka dve škole značajno razlikuju? 3. Merena je prosečna vrednost sistolnog krvnog pritiska nakon maksimalnog trčanja deonice od 100m. U istraživanju je učestvovalo 80 žena i 100 muškaraca. Prosečna vrednost sistolnog pritiska (u mmHg) za žene nakon opterećenja je iznosila 155±15, a kod muškaraca 140±17. Da li postoji signifikantna razlika između prosečnog sistolnog pritiska muškaraca i žena? 4. Određivan je hemoglobin periferne krvi zdravih ispitanika i dobijene su sledeće vrednosti od: X  88 i SD = 2,4 za 25 muškaraca i X  83 i SD = 1,4 za 23 žene. Da li je hemoglobin značajno različit u odnosu na pol? 5. Odabrana su dva uzorka od po 20 bolesnika sa povišenim holesterolom u krvi. Jedna grupa je lečena dotadašnjim poznatim terapijskim metodama. Po završetku lečenja dobijene su sledeće vrednosti: X  6,5mmol / l i SD = 0,7. Druga grupa bolesnika je pored klasične terapije bila podvrgnuta i specifičnoj dijeti. Posle istog vremena lečenja kao i kod prve grupe, dobijene su sledeće vrednosti: X  6,25 i SD = 0,6. Da li je dijeta imala uticaj na smanjenje holesterola u krvi? 6. U jednom epidemiološkom istraživanju čiji je zadatak bio da se utvrde mogući etiološki faktori za nastanak nekog oboljenja ispitivano je 100 osoba i meren nivo hemoglobina pre i nakon izlaganja faktorima i dobijene su sledeće vrednosti: X pre  15,5 , SD pre  3,2 , X posle  20,1 , SD posle  3,8 , a koeficijent proste linearne korelacije iznosio je 0,82. Da li postoji signifikantna razlika između prosečne visine hemoglobina ispitanika pre i nakon izlaganja faktorima rizika? 7. Izmerene su vrednosti albumina (g/l) 12 ispitanika pre i posle dobijene su sledeće vrednosti: Ispitanici 1 2 3 4 5 6 7 8 9 10 11 Pre 58 52 53 46 58 49 46 53 51 57 48 Posle 57 62 51 49 68 65 54 59 44 66 64 Da li je došlo do značajnog sniženja albumina posle tretmana?

120

tretmana i 12 45 45

10. NEPARAMETRIJSKI TESTOVI Neparametrijski testovi se koriste kod atributivnih obeležja, a kod numeričkih obeležja se koriste kod malih uzoraka koji nemaju normalan raspored. Tada se varijable ne tretiraju kao brojevi sa kojima su moguće matematičke operacije, već kao rangirani niz. Neparametrijski testovi testiraju razliku između frekvencija ili rangova vrednosti unutar skupa. Prednost u odnosu na parametrijske testove je ta što se mogu koristiti i kod malih uzoraka koji nemaju normalan raspored, a nedostatak što imaju manju snagu pri zaključivanju.

10.1. Hi kvadrat (2) test To je jedan od najpoznatijih neparametrijskih testova. Poznat je i pod nazivom Pearson-ov χ2 test, jer ga je razradio K. Pearson 1900. godine. Ovim testom se proverava da li postoji statistički značajna razlika između dobijenih i očekivanih frekvencija pojedinih kategorija nekog opisnog obeležja u jednom ili dva osnovna skupa ili uzorka. Dobijene frekvencije su frekvencije dobijene empirijskim istraživanjem ili eksperimentom. Očekivane frekvencije su teorijskog karaktera ili očekivane na osnovu hipoteze koju želimo da proverimo. Izračunava se po formuli:

2  

 fd

 fo  fo

2

u kojoj znak  označava da se Hi kvadrat vrednost izračunava kao zbir rezultata formule (fd-fo)2/fo primenjene za svaku kategoriju opisnog obeležja i to za svaku grupu ispitanika. Pri izradi ovog testa: - Zbir dobijenih i očekivanih frekvencija mora uvek biti jednak - Zbir razlike dobijenih i očekivanih frekvencija uvek je jednak nuli Ako ova dva uslova nisu ispunjena, postoji negde greška u računu ili problem nema smisla, nije χ2 test adekvatan za taj problem. Vrednost χ2 testa ne može da bude negativna jer ona predstavlja sumu kvadrata. Stepen slobode se izračunava po obrascu: S.S. = (R-1) x (K-1), gde je K - broj kolona, a R – broj redova.

121

Tumačenje dobijene vrednosti bazira se na teorijskom 2 rasporedu: a) Raspored je definisan u oblasti od 0 do +, b) Kriva rasporeda nije simetrična, međutim, s povećanjem broja modaliteta posmatranog obeležja (sa povećanjem broja stepena slobode) χ2 raspored se približava normalnom rasporedu, c) Za svaki broj stepeni slobode postoji i određen χ2 raspored i kritične oblasti prihvatanja ili odbacivanja nulte hipoteze. S.S.=3 S.S.=4 S.S.=5 S.S.=6

2 0

+

Tumačenje realizovane vrednosti 2 testa vrši se na osnovu tablica kritičnih vrednosti 2 distribucije. Tri su najvažnija uslova za primenu 2 kvadrat testa: 1. 2 test se izračunava isključivo iz apsolutnih frekvencija, ili iz podataka ako mogu da se svedu na apsolutne frekvencije; 2. Nijedna od apsolutnih frekvencija ne sme da ima vrednost manju od 5 jedinica i 3. Kada su uzorci manji od 200 jedinica (n1+n2<200) primenjuje se Yates-ova korekcija: (1) svaka dobijena frekvencija, ako je veća od očekivane umanjuje se za 0,5, (2) svaka dobijena frekvencija ako je manja od očekivane uvećava se za 0,5. 2 1. 2. 3.

test može imati sledeće modalitete: χ2 test rasporeda frekvencija χ2 test nezavisnosti χ2 test homogenosti

10.1.1. χ2 test rasporeda frekvencija (test slaganja) Ispituje razliku između rasporeda dobijenih (opaženih) i očekivanih (teoretskih) frekvencija. Dobijene (opažene) frekvence su frekvence modaliteta obeležja u uzorku koji ispitujemo. Očekivane (teoretske) frekvencije se mogu dobiti na više načina: 1. na osnovu nulte hipoteze 2. na osnovu teoretske raspodele verovatnoća 3. na osnovu stručne teorije ili prethodnih istraživanja. Kao što je gore istaknuto, jedna od karakteristika neparametrijskih postupaka je da se u njima vodi računa o čitavoj distribuciji, pa je zato jedan od osnovnih načina

122

primene χ2 testa ispitivanje podudarnosti dve distribucije, tzv. testovi slaganja. Drugim rečima, ispitujemo da li su naši empirijski podaci saglasni sa nekom hipotetičkom raspodelom. Primer: Prilikom zapošljavanja u Domu zdravlja, doktor medicine je očekivao da će dnevno u radnim danima imati po 52 bolesnika, odnosno 260 pregleda nedeljno. Posle prve nedelje rada broj pregledanih bolesnika bio je sledeći: ponedeljak – 60, utorak – 40, sreda – 45, četvrtak – 55 i petak – 60 pregleda. Da li je lekar bio u pravu? 1. Postavljamo hipoteze: Ho: Broj pregleda se ne razlikuje po radnim danima u nedelji Ha: Broj pregleda se razlikuje po radnim danima u nedelji 2. Pošto smo odabrali odgovarajući 2 test, krećemo u njegovu izradu: Dobijene frekvencije su frekvencije date u zadatku. Raspored očekivanih frekvencija proizilazi iz tvrdnje nulte hipoteze da je broj pregleda isti u svim radnim danima, tj. po 52 pregleda dnevno kako je izračunao lekar (260:5=52). Radi izračunavanja konstruiše se radna tabela:

 fd

 fo 

2

 fd

 fo  fo

2

dani

fd

fo

fd  fo

1. ponedeljak 2. utorak 3. sreda 4. četvrtak 5. petak

60 40 45 55 60

52 52 52 52 52

+8 -12 -7 +3 +8

64 144 49 9 64

1,23 2,77 0,94 0,17 1,23

Σ

260

260

0

-

∑ χ2=6,34

  2

 f d  f o 2 fo

 6,34

3. Odredimo broj stepena slobode po formuli: S.S.=R-1=5-1=4 Za broj stepena slobode 4 i prag značajnosti od 0,05 u tablicama kritičnih vrednosti 2 distribucije očitavamo da je χ2= 9,488. χ2= 6,34 < χ2 (4 i 0,05) = 9,488 i p>0,05 Kako je realizovana χ2 vrednost od 6,34 manja od granične tablične vrednosti 2 χ =9,488 za stepen slobode 4 i prag značajnosti p=0,05, prihvatamo nultu i odbacujemo alternativnu hipotezu za nivo greške p>0,05 i zaključujemo da se broj pregleda ne

123

razlikuje po radnim danima u nedelji, tj. da je doktor medicine pravilno procenio prosečan broj pregleda po radnom danu. U SPSS-u zadatak se radi na sledeći način: Podatke u SPSS obrazac unosimo tako što ćemo brojevima šifrirati dane: ponedeljak brojem 1, utorak - 2, sreda – 3, četvrtak – 4 i petak - 5. Brojke su nam potrebne jer SPSS neće obraditi podatke označene slovima ili rečima. Da bi se aktivirao χ2 test rasporeda frekvencija treba otvoriti Analyse / Nonparametric tests i u desnom grananju izabere se Chi-Square.

U radnom prozoru koji se otvara, iz liste sa leve strane odabere se varijabla „dani“ i prebaci strelicom na Test Variable List, a zatim se odabere Options i označi Descriptive.

124

Klikne se na Continue i OK i u Output-u se dobiju rezultati. dani 1.00 2.00 3.00 4.00 5.00 Total

Observed N 60 40 45 55 60 260

Expected N 52.0 52.1 52.2 52.3 52.4

Residual 8.0 -12.0 -7.0 3.0 8.0

Test Statistics dani Chi-Square a df Asymp. Sig.

6.346 4 .175

a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 52.0

U prvoj tabeli su dobijene (Observed N) i očekivane frekvencije (Expected N), a u drugoj vrednost testa (Chi Square) koja je za ovaj primer 2=6,346 i p (Asymp. Sig.) koje je p=0,175.

10.1.2. χ2 test nezavisnosti Hi kvadrat test nezavisnosti ispituje da li postoji povezanost (asocijacija) između modaliteta dva kategorijska obeležja kod ispitanika u jednom skupu ili uzorku. Neka atributivna obeležja po svojoj prirodi mogu da imaju samo dve kategorije (modaliteta), koje isključuju jedna drugu i za ovakva obeležja kažemo da su dihotomna. Tipičan primer za ovakvo obeležje je pol, koje ima modalitete: muški i ženski. S druge strane, mnoga atributivna obeležja, bez obzira na broj modaliteta, mogu da se posmatraju dihotomno, odnosno da se klasifikuju u dva modaliteta suprotnog značenja. Na primer, prema konzumiranju alkohola sve ljude možemo podeliti na mnogo kategorija: piju žestoka pića, piju vino, piju pivo, piju svakodnevno, piju povremeno, ne piju... Ali ovo obeležje možemo posmatrati i kao dihotomno: piju i ne piju. Praktično ceo skup, odnosno uzorak može da se podeli na dva dela: na grupu jedinica koje “imaju” i grupu jedinica koje “nemaju” određenu kategoriju nekog obeležja.

125

Ukoliko ispitanike iz jednog skupa ili uzorka podelimo na osnovu zastupljenosti pojedinih modaliteta dva dihotomna obeležja, na primer eksponirani – neeksponirani i oboleli – nisu oboleli, onda dobijamo odnos kao na šemi:

Navedeni odnosi dva obeležja jednog uzorka, sa po dva modaliteta, prikazuju se tabelom kontigencije 2x2, u dva reda i dve kolone. Koji modaliteti se prikazuju u redovima, a koji u kolonama, zavisi od metoda i načina ispitivanja i studije. Observacione ili retrospektivne studije su one u kojima se polazi od bolesti (posledice) pa ide prema ekspoziciji (uzroku bolesti). Kod ovih studija tabela kontigencije 2x2 ima sledeći opšti oblik:

rizik faktor (ekspozicija) eksponirani neeksponirani ukupno

stanje zdravlja oboleli zdravi a b c d a+c b+d

ukupno a+b c+d a+b+c+d=N

Radna hipoteza: Eksponiranost je veća kod obolelih nego kod zdravih, odnosno frekvencija eksponiranih i obolelih (a) je značajno veća od frekvencije eksponiranih, a zdravih (b). Prospektivne studije polaze od uzroka (faktora rizika) pa idu prema posledici (bolesti). Kod ovih studija tabela kontigencije ima oblik:

stanje zdravlja oboleli nisu oboleli ukupno

uzrok - ekspozicija eksponirani neeksponirani a b c d a+c b+d

ukupno a+b c+d a+b+c+d=N

Radna hipoteza: Prevalenca oboljenja je veća kod eksponiranih nego kod neeksponiranih, odnosno frekvencija obolelih-eksponiranih (a) je značajno veća od frekvencije obolelih- neeksponiranih (b). Odgovore na pitanja kod obe studije daje nam χ2 test. U stvari χ2 test daje odgovor na pitanje da li postoji asocijacija između ekspozicije (rizik faktora) i nekog oboljenja. Primer: Da li postoji veza između pušenja i raka pluća? Od 500 slučajno izabranih pacijenata, 85 je imalo karcinom pluća, a od ovih 75 su bili pušači. Kod 415 pacijenata bez karcinoma pluća, bilo je 150 pušača.

126

Ho: Između pušenja i raka pluća ne postoji povezanost Ha: Između pušenja i raka pluća postoji povezanost Podatke predstavimo u vidu tabele kontigencije 2x2: pušenje da ne ukupno

Ca pluća 75 a 10 c 85 (a+c)

zdravi 150 b 265 d 415 (b+d)

ukupno 225 (a+b) 275 (c+d) 500 N

Dobijene frekvencije su već date u zadatku: za pušače obolele od Ca pluća (a), zdrave pušače (b), nepušače obolele od Ca pluća (c) i zdrave nepušače (d). Očekivane frekvencije se računaju tako što se proizvod ukupnog zbira kolona i ukupnog zbira reda deli sa ukupnom veličinom uzorka (N):

fo 

K R

ili

N

fo =

( a  c )  ( a  b) abcd

gde je K – kolona, R – red, a N – veličina uzorka.

85  225  38,25 500 415  225 fopušači bez Ca pluća (b) =  186,75 500 85  275 fonepušači sa Ca pluća (c)=  46,75 500 415  275  228,25 fonepušači bez Ca pluća (d) = 500

fopušači sa Ca pluća (a) =

Kada smo izračunali očekivane frekvence, pristupimo izračunavanju vrednosti χ2 testa:

obeležje

fd

fo

fd  fo

pušači sa Ca pluća pušači bez Ca pluća nepušači sa Ca pluća nepušači bez Ca pluća

75 150 10 265

38,25 186,75 46,75 228,25

36,75 -36,75 -36,75 36,75



500

500

0

 fd

 fo 

1350,56 1350,56 1350,56 1350,56

2

 fd

 fo  fo

2

35,31 7,23 28,89 5,92 ∑ χ2 =77,35

Stepen slobode se određuje po formuli: S.S. = (K-1)x(R-1). Kod tabele kontigencije 2x2, broj stepena slobode jednak je 1 jer je: (2-1)x(2-1) = 1.

127

Za stepen slobode 1 i p = 0,05 u tablici χ2 rasporeda očitavamo graničnu tabličnu vrednost χ2 = 3,841. χ2 = 77,35> χ2(1 i 0,05)= 3,841 i p<0,05 Kako je realizovana χ2 vrednost od 77,35 veća od granične tablične vrednosti, 2 χ =3,841, za stepen slobode 1 i prag značajnosti p=0,05, odbacujemo nultu i prihvatamo alternativnu hipotezu sa greškom p<0,05 i sigurnošću P>95% i zaključujemo da postoji povezanost između pušenja (kao rizik faktora) i raka pluća. Prihvatili smo alternativnu hipotezu, koja u opštem smislu znači: između obeležja postoji statistički značajna veza. To nam potvrđuje realizovana 2 vrednost koja je veća od teorijske, tj. tablične. Međutim, realizovana vrednost 2 ne daje informaciju koliki je stepen intenziteta te asocijacije. Ta informacija dobija se na osnovu koeficijenta kontigencije. (Napomena : određivanje koeficijenta kontigencije ima smisla samo ako na osnovu Hi kvadrat testa odbacimo nultu hipotezu). Koeficijent kontigencije izračunava se iz sledećeg obrasca:

C

2 77,35   0,37 2 500  77,35 N

Potrebno je utvrditi da li je vrednost koeficijenta kontigencije bliža maksimumu ili nuli. Za tabelu kontigencije 2x2, maksimalna vrednost koeficijenta se dobija po formuli:

C max 

R 1 ili R

K 1 K

C max 

2 1  0,5  0,707 2

gde je R – broj redova, a K –broj kolona. Što je dobijena vrednost koeficijenta kontigencije bliža vrednosti od 0,707 to je veza intenzivnija i jača. Dobijena vrednost je bliža maksimalnoj vrednosti C=0,707, nego nuli (0,7070,37=0,337): C=0,37>0,337 pa možemo da tvrdimo da postoji dosta visok stepen korelacije ili asocijacije između pušenja i raka pluća. U SPSS-u to izgleda ovako: Biramo: Analyse / Descriptive Statistics / Crosstabs.

128

U radnom prozoru u polje redovi (Row(s)) iz liste sa leve strane prebacimo dihotomnu varijablu „pušenje“. U polje kolone (Column(s)) prebacimo drugu dihotomnu varijabla „Ca“. Kliknemo na Statistics i u novom radnom prozoru označimo Chi-Square.

Kliknemo na Continue i OK. U ispisu se dobiju rezultati:

129

Case Processing Summary

Valid N pusenje * Ca

Percent 100.0%

500

N 0

Cases Missing Percent .0%

Total N

Percent 100.0%

500

pusenje * Ca Crosstabulation Count Ca da pusenje

da ne

ne 75 10 85

Total

Total 150 265 415

225 275 500

Chi-Square Tests

Value Pearson Chi-Square a Continuity Correction Likelihood Ratio Fisher's Exact Test N of Valid Cases

Asymp. Sig. (2-sided)

df b

77.347 75.256 83.539

1 1 1

Exact Sig. (2-sided)

Exact Sig. (1-sided)

.000 .000 .000 .000

.000

500

a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 38. 25.

Druga tabela je tabela kontigencije 2x2 sa ukrštenim modalitetima obeležja. U trećoj tabeli u redu Pearson Chi-Square su vrednosti 2 testa – Value koja iznosi 77,347 i p - Asymp. Sig. (2-sided) za koje je u tabeli Output-a SPSS-a izbacio vrednost 0,000. U tom slučaju u rezultatima se piše da je p<0,001.

10.1.3. 2 test homogenosti Ovaj test utvrđuje da li ispitivani nezavisni uzorci pripadaju istom ili su uzeti iz različitih skupova. Kod testa homogenosti postupak izračunavanja je isti, ali on nije identičan sa testom nezavisnosti. Testom nezavisnosti istražujemo razliku između frekvencija modaliteta dva obeležja u jednom uzorku ili jednom skupu, a testom homogenosti ispitujemo da li frekvencije pojedinih modaliteta jednog kategorijskog obeležja imaju identičnu (homogenu) distribuciju kod više nezavisnih uzoraka izvučenih iz različitih skupova. Primer: Slučajno su odabrani uzorci od po 800 bolesnika operisanih u Nišu i Beogradu. Broj postoperativnih komplikacija bio je sledeći: Tabela kontigencije postoperativnih komplikacija u Nišu i Beogradu komplikacije ne da ukupno

130

Niš 762 38 800

Beograd 760 40 800

ukupno 1522 78 1600

Zadatak je da se za nivo značajnosti p=0,05 oceni da li hirurzi u Nišu i Beogradu imaju bitno različit broj postoperativnih komplikacija. Ho: Ne postoji statistički značajna razlika u broju postoperativnih komplikacija bolesnika operisanih u Nišu i Beogradu, tj. uzorci se ponašaju kao da pripadaju istom osnovnom skupu. Ha: Postoji statistički značajna razlika u broju postoperativnih komplikacija bolesnika operisanih u Nišu i Beogradu, tj. uzorci se ponašaju kao da pripadaju različitim skupovima. Očekivane frekvencije izračunavamo prema već poznatoj metodologiji:

800  1522  761 1600 800  1522 fob =  761 1600 800  78  39 foc = 1600 800  78  39 fod = 1600 foa =

Sada možemo pristupiti izračunavanju pojedinih vrednosti neophodnih za izračunavanje 2 testa. Dobijene i očekivane frekvencije Komplikacije ne da ukupno

Niš fd 762 38 800

Beograd fo 761 39 800

fd 760 40 800

fo 761 39 800

Iz podataka tabele sledi:  f d  f o 2 762  7612 38  392 760  7612 40  392 0,055 2        fo 761 39 761 39 S.S. = (R-1)x(K-1) = (2-1)x(2-1) = 1 x 1 = 1 χ2 = 0,055 < χ2(1 i 0,05)= 3,841 i p>0,05 Kako je realizovana, tj. osnovna χ2 vrednost od 0,055 manja od granične tablične vrednosti, χ2=3,841, za broj stepeni slobode 1 i prag značajnosti od p=0,05, prihvatamo nultu i odbacujemo alternativnu hipotezu i zaključujemo da ne postoji statistički značajna razlika u broju postoperativnih komplikacija kod bolesnika operisanih u Nišu i Beogradu, tj. uzorci se ponašaju kao da pripadaju istom osnovnom skupu.

131

10.2. Mantel - Haenzel-ov 2 test Dva autora, Mantel i Haenzel, razradili su tehniku izračunavanja 2 testa direktno iz izvornih podataka tabele kontigencije 2x2. Njegova primena se preporučuje se kod uzoraka manjih od 200 jedinica. Prednost primene ovog načina izračunavanja je u tome što razrađena formula automatski obuhvata i Yates-ovu korekciju. Za primer u kome je utvrđivano da li postoji veza između pušenja i raka pluća izračunali bi smo ga na sledeći način:

 a  d  b  c  0,5N 

2

  2

N

a  b   c  d   a  c   b  d 

 75,26

Dobijena je nešto manja vrednost (dobijeni 2 test bez korekcije je bio 77,35) jer pri prvom metodu izračunavanja na osnovu razlika dobijenih i očekivanih frekvencija nije bila uključena Yates-ova korekcija.

10.3. Fisher-ov test tačne verovatnoće Fisherov test se primenjuje kod tabela kontigencije 2x2, kod nezavisnih uzoraka kada se vrednosti obeležja mogu da prikažu dihotomno tj. kada i ekspoziciju (uzrok) i bolest ili neko drugo stanje (posledicu) možemo da prikažemo sa „da“ i „ne“. Prednost ovog testa ogleda se u tome što on može da se primeni i kada je u pojedinim „ćelijama“ frekvencija manja od 5 jedinica ili jednaka nuli. O tome vodi računa aplikacija statističkog programa. Izračunava se direktno p vrednost za procenu verovatnoće greške tvrdnje da između frekvencija ima razlike, prema formuli:

p

a  b !c  d !a  c !b  d ! a!b!c!d ! N !

Na taj način, za razliku od 2 testa gde prvo računamo vrednost 2 pa na osnovu nje za određen broj stepena slobode i granične vrednosti utvrđujemo koliko je p, kod Fišerovog testa nema svih tih koraka u izračunavanju, već se odmah dobije kolika je vrednost p. Ukoliko je:  p>0,05, prihvatamo nultu i odbacujemo alternativnu hipotezu,  p0,05, odbacujemo nultu i prihvatamo alternativnu hipotezu. Primer: Od 8 onkoloških bolenika, 4 je lečeno jednom, a 4 drugom vrstom terapije. Od 4 bolesnika lečenih terapijom A umro je 1 bolesnik, a od 4 bolesnika lečenih terapijom B umrla su 2 bolesnika. Da li postoji signifikantna razlika u ishodu lečnja između ove dve terapije?

132

Prvo pravimo tabelu kontigencije: terapija A B ukupno

preživeli 3 2 5

umrli 1 2 3

ukupno 4 4 8

Zatim postavljamo hipoteze: Ho: Nije postojala signifikantna povezanost između vrste terapije i ishoda lečenja. Ha: Postojala je signifikantna povezanost između vrste terapije i ishoda lečenja. Na kraju, izračunavamo p vrednost primenom formule:

p

(3  1)!(2  2)!(3  2)!(1  2)! =0,107 3!1!2!2!8!

Kako je p=0,107 veće od 0,05, prihvatamo nultu i odbacujemo alternativnu hipotezu i zaključujemo da nije postojala signifikantna povezanost između vrste terapije i ishoda lečenja. Fisher-оv test tačne verovatnoće je prvobitno osmišljen za 2x2 tabelu i korišćen je samo kada su očekivane učestalosti bile male. To je zato što su za veće brojeve i veće tabele proračuni bili nepraktični. Sa računarima stvari su se promenile i Fisher-ov test tačne verovatnoće može da se uradi za bilo koju 2x2 tabelu. Neki programi će takođe izračunati Fisher-ov test tačne verovatnoće za veće tabele, dok se broj redova i kolona povećava, broj mogućih tabela raste vrlo brzo i postaje neizvodljivo da se izračuna i sačuva verovatnoća za svaku od njih. Postoje specijalni programi kao što je StatExact koji prave slučajni uzorak mogućih tabela i koriste ih za procenu raspodele verovatnoća. Metode koje uzorkuju mogućnosti na ovaj način zovu se Monte Carlo metode. Bilo je mnogo sporova između statističara o validnosti testa tačne verovatnoće i korekciji kontinuiteta koji ga aproksimira. Problem je i dalje nerešen, a diskusija o ovom problemu je van domašaja ove knjige. Za neke slučajeve Fisher-ov test tačne verovatnoće i Yates-ova korekcija mogu biti konzervativni, odnosno dati veću verovatnoću nego što bi trebalo, mada je ovo stvar rasprave. Stav autora ove knjige je da Yates-ovu korekciju i Fisher-ov test tačne verovatnoće treba koristiti.

10.4. Mc Nemar-ov test Mc Nemar-ov test je u stvari 2 test za dva zavisna uzorka. Njime se utvrđuje da li postoji povezanost između dihotomnih obeležja dva zavisna uzorka. Zavisnost podrazumeva bilo iste jedinice posmatranja u dva vremena (pre i posle nekog tretmana) ili iste jedinice posmatranja podvrgnute dejstvu dva različita tretmana. Obeležja tablice kontigencije su prvo i drugo vreme ili prvi i drugi tretman. Podaci koji se posmatraju mogu biti i parametrijski, ali heterogeni. Primenjuje se na tablice kontigencije 2x2 koja se odnosi na zavisne uzorke. Ishodi u tablici su specifično organizovani:

133

prvo testiranje

drugo testiranje

ukupno

pozitivno

negativno

pozitivno

a

b

a+b

negativno

c

d

c+d

ukupno

a+c

b+d

N=a+b+c+d

Ivični zbirovi nisu bitni za Mc Nemar test. U izračunavanju se koriste one učestalosti u kojima se ogleda razlika pri dva testiranja. U kontigencijskoj tablici je vidljivo da se dobijene razlike nalaze u ćelijama b i c. Empirijska vrednost Mc Nemar-ovog testa predstavlja se preko 2 vrednosti koja se izračunava primenom formule: 2  b  c   1    2

bc

Stepeni slobode se izračunavaju kao kod 2 testa: S.S. = (K-1)x(R-1). Tumačenje realizovane vrednosti 2 testa vrši se na osnovu tablica kritičnih vrednosti 2 distribucije. Uslovi za primenu Mc Nemar testa: 1. Ne može se primeniti ako je neka od validnih učestalosti manja od 5. 2. Yates-ova korekcija se primenjuje kada je a+d<20. Primer: U jednom istraživanju u području dijagnostike nastojalo se videti da li postoji razlika između dve dijagnostičke metode u otkrivanju jedne bolesti. Istraživanjem je obuhvaćeno 100 ispitanika. Dijagnostička metoda II

Dijagnostička metoda I pozitivan nalaz

negativan nalaz

pozitivan nalaz

15 (a)

40 (b)

negativan nalaz

25 (c)

20 (d)

Postavlja se pitanje postoji li značajna razlika između metode I i II. Ho: Ne postoji statistički značajna razlika između dijagnostičkih metoda I i II Ha: Postoji statistički značajna razlika između dijagnostičkih metoda I i II

134

2 

40  25  12 40  25

 3,02

S.S. = (K-1)x(R-1)=(2-1)x(2-1)=1 χ2McN = 3,02 < χ2(1 i 0,05)= 3,841 i p>0,05 Kako je realizovana χ2McN vrednost od 3,02 manja od granične tablične vrednosti, χ2=3,841, za broj stepeni slobode 1 i prag značajnosti od p=0,05, prihvatamo nultu i odbacujemo alternativnu hipotezu jer je greška p>0,05 i zaključujemo da ne postoji statistički značajna razlika između dijagnostičkih metoda I i II U SPSS-u se zadatak radi na sledeći način: Biramo: Analyse / Nonparametric Tests / 2 Related Saples

U radnom prozoru sa leve na desnu stranu prebacimo varijable koje se ukrštaju, a to su „DgI“ za prvu dijagnostičku metodu i „DgII“ za drugu. Zatim odaberemo McNemar.

135

Izda se nalog OK i dobiju se rezultati: DgII & DgI DgI DgII 1 2

1

2 15 25

Test Statistics

40 20

b

DgII & DgI N 100 3.015 Chi-Square a Asymp. Sig. .082 a. Continuity Corrected b. McNemar Test

Prva tabela je tabela kontigencije, a rezultati su u drugoj tabeli i to vrednost testa u redu Chi-Square, odakle se čita 2McN= 3,015, a vrednost p u redu Asymp. Sig, i ona iznosi p=0,082.

10.5. Aditivno dejstvo 2 testa Aditivno dejstvo 2 testa znači da je moguće sabrati veći broj vrednosti 2 testa (pri čemu se sabiraju i stepeni slobode) za istu pojavu i na osnovu tog zbira zaključiti o značajnosti razlike. Primer: Dejstvo vakcine protiv gripa ispitano je u Nišu, Kragujevcu, Beogradu i Novom Sadu i dobijene su sledeće vrednosti za 2 test: grad Niš Kragujevac Beograd Novi Sad Σ

136

vrednost 2 2,64 2,38 4,46 2,93 12,41

S.S. 1 1 1 1 4

Za svaki grad ponaosob rezultat je vezan za jedan stepen slobode i na nivou značajnosti je od p=0,05. Tablična vrednost 2 iznosi 3,841. Prema tome, statistički je značajan samo rezultat u Novom Sadu. Kako u ostalim Gradovima nemamo značajnost, to nemamo dovoljno dokaza ni za prihvatanje ni za odbacivanje nulte hipoteze. Međutim, kako zbir svih vrednosti 2 iznosi 12,41 i za 4 stepeni slobode, na nivou značajnosti od p=0,05 ovaj rezultat ukazuje na značajnost razlike, jer je: χ2 = 12,41 > χ2(4 i 0,05)= 9,49 i p<0,05 To upućuje na neprihvatanje nulte hipoteze, odnosno na zaključak da primena vakcina utiče na smanjenje obolevanja. Aditivno svojstvo χ2 testa omogućava jasnije rezultate testiranja.

137

Zadaci za vežbanje

1. Psiholog je u istraživanju mentalno zaostale dece hteo da ispita da li su ona sklonija nekoj određenoj boji. Izabrao je 80 mentalno zaostale dece i dao im da izaberu između četiri različite boje košulje: 25 je izabralo braon, 18 oranž, 19 žutu i 19 zelenu boju. Da li postoji posebna sklonost dece prema nekoj određenoj boji? 2. U jednoj klinici nastojalo se ispitati da li se dobijene učestalosti učinka psihoterapije značajno razlikuju od onih koje bi smo očekivali pod pretpostavkom da lečenje nema stvarnih učinaka. Istraživanjem je obuhvaćeno 100 bolesnika od kojih je kod 45 stanje bilo bolje, kod 25 lošije, a kod 30 isto. Da li je bolesnicima nakon psihoterapije bilo bolje? 3. U jednom istraživanju nastojalo se videti da li ishrana bolesnika utiče na pojavu kardiovaskularnih bolesti. Istraživanjem je obuhvaćeno 230 ispitanika. Od ukupno 150 ispitanika koji su imali ishranu sa visokim holesterolom, kod njih 110 razvila se kardiovaskularna bolest, kao i kod 20 od 80 ispitanika koji su koristili ishranu sa niskim holesterolom. Da li ishrana utiče na pojavu kardiovaskularnih bolesti? 4. Ispitivana je povezanost između zapaljenja dojke i pojave raka dojke na uzorku od 212 žena, od kojih je 106 imalo karcinom dojke, a 106 je bilo bez karcinoma. Od 106 žena sa karcinomom dojke, 62 su imale i zapaljenje, a od 106 žena bez karcinoma dojke zapaljenje je imalo 40 žena. Da li postoji povezanost između zapaljenja i karcinoma dojke? 5. Pri izbijanju epidemije u jednom naselju sa 9000 stanovnika, u odnosu na vakcinisanost stanovništva, dobijeni su sledeći odnosi obolelih i neobolelih: stanje vakcinisanosti vakcinisani pre 11 meseci vakcinisani pre same epidemije Nevakcinisani

oboleli 250 180 520

nisu oboleli 2250 3320 2480

Da li postoji statistički značajna razlika u oboljevanju kod vakcinisanih i nevakcinisanih i da li je ta razlika posledica vakcinacije ili je slučajnog karaktera? 6. Od radnika tri preduzeća (A, B i C) izdvojeni su uzorvi (A = 140, B = 130 i C = 130) i posmatrana sklonost ka povređivanju na radu. U uzorku iz preduzeća A i C bilo je povređeno po 60, a preduzeću B 50 radnika. Da li je sklonost ka povređivanju u preduzećima ista, bez obzira na vrstu proizvodnje kojom se ta preduzeća bave, tj. Da li su skupovi radnika iz kojih su uzorci dobijeni homogeni (pa samim tim i sva tri uzorka pripadaju istom skupu)?

138

7. Standardnom i novom terapijom lečeno je 50 bolesnika i dobijeni su sledeći rezultati: nova terapija

standardna terapija

ukupno

poboljšano

nepromenjeno

poboljšano

20

15

35

nepromenjeno

5

10

15

ukupno

25

25

50

Da li postoji značajna razlika u rezultatima lečenja starom i novom terapijom?

139

11. REGRESIONA I KORELACIONA ANALIZA Reč regresija dospela je u statistiku kada je 1855. godine Fransis Galton objavio publikaciju u kojoj je analizirao visinu sinova u zavisnosti od visine očeva. Zaključak ove studije bio je da sinovi ekstremno visokih očeva nisu toliko visoki, dakle regresiraju. Promena jednog obeležja statističkog skupa često utiče na promenu drugih obeležja zbog međusobne povezanosti. Povezanost između obeležja može se razlikovati i po smeru i po jačini povezanosti. Najjača ili najuža veza između obeležja je funkcionalna veza, tj. takva veza da svakoj vrednosti jednog obeležja odgovara tačno određena vrednost drugog obeležja. Labavija veza između obeležja, koja su podložna manjim ili većim odstupanjima, naziva se korelativnom (ili stohastičkom) vezom. Obično se jedna slučajno promenljiva identifikuje kao nezavisna (x), a druga kao zavisno slučajno promenljiva (y). Skup statističkih metoda kojima se proučavaju uzajamne veze statističkih obeležja i pojava (smer, jačina, oblik) naziva se teorijom korelacije, a osnovni pokazatelji korelacionih veza su jednačina regresije i koeficijent korelacije. Ispitivanje zavisnosti u statističkoj analizi ima dva osnovna pravca: 1. oblik zavisnosti koji ispituje regresiona analiza 2. jačinu zavisnosti koju određuje korealicona analiza U medicinskim istraživanjima najčešće se sreće linearni model regresione i korelacione analize, pa će se naša razmatranja odnositi na taj model.

11.1. Regresiona analiza Regresiona analiza pokazuje oblik povezanosti između dve promenljive pomoću regresione linije. Odnos promenljive (y) prema promenljivoj (x) može biti različit, i zato je prvi korak ka otkrivanju oblika povezanosti ucrtati dijagram rasturanja ili dijagram disperzije između dva obeležja.

140

Da bi smo kvantifikovali približnu linearnu vezu između te dve veličine, možemo konstruisati pravac koji najbolje opisuje podatke. Intuitivno bi to učinili tako da je približno jednak broj tačaka iznad pravca i ispod njega.

Postoji egzaktan matematički način kojim se prikazuje najbolje prilagođen pravac linearne veze. Određuje se iz uslova da je zbir kvadrata vertikalnih udaljenosti tačaka od od pravca najmanja – metoda najmanjih kvadrata. Tako određen pravac povezanosti između dve varijable prikazuje se regresionom linijom.

141

Regresiona linija izražava se jednačinom regresije: y = a + b · x, gde je: y – zavisno promenljiva, x - nezavisno promenljiva, a – regresiona konstanta, b – koeficijent regresije. Zavisno promenljiva y je nepoznata promenljiva, koja se izračunava na osnovu vrednosti nezavisne promenljive x koja je poznata. Regresiona konstanta (a) i koeficijent regresije (b) određeni pomoću metoda najmanjih kvadrata imaju formule:

a  y bx

i

b

n   xy   x   y n   x 2   x 

2

Sa n je u jednačini označen ukupan broj parova koji po nekim autorima ne bi smeo da bude manji od 12 (n>12) da bi se dobila reprezentativna regresiona prava i pravi oblik međuzavisnosti među pojavama. Parametar a je regresiona konstanta i određuje „nivo“ regresione prave. To je vrednost y za x=0 i predstavlja tačku u kojoj regresiona linija seče y-osu. Drugim rečima, to je početna vrednost zavisne y kada još uvek nije počela da deluje nezavisna x. Osobine parametra a su: 1. ako je a =0, regresiona prava prolazi kroz koordinatni početak. To znači da ako obeležja ne mogu da imaju negativne vrednosti polaze od nultog „nivoa“, 2. ako je a>0, regresiona prava seče ordinatnu osu iznad koordinatnog početka, 3. ako je a<0, regresiona prava seče ordinatnu osu ispod koordinatnog početka. Parametar b–koeficijent regresije određuje nagib regresione prave. U matematičkom smislu on predstavlja tangens ugla koga regresiona prava zaklapa sa X-osom. Osobine parametra b su: 1. ako je b=0, regresiona prava je paralelna sa X-osom; to znači da obeležje Y ima uvek istu vrednost i da ne zavisi od obeležja X, 2. ako je b>1, regresiona prava se udaljava od X-ose i približava Y-osi, 3. ako je b<1, regresiona prava je bliža X-osi a udaljava se od Y-ose. Regresionom analizom mogu i da se predvide vrednosti zavisno promenljivih za određene vrednosti nezavisno promenljivih, a koje nisu evidentirane u istraživanju. Kada se vrednosti nezavisno promenljivih za koje nas interesuju vrednosti zavisno promenljivih nalaze između najnižih i najviših evidentiranih vrednosti proces predviđanja se naziva interpolacija, a kada su izvan opsega evidentiranih vrednosti proces predviđanja se naziva ekstrapolacija.

142

Primer: Dat je broj eritrocita i visina hemoglogobina u krvi 12 ispitanika: broj eritrocita 4,21 4,3 3,6 4,41 3,8 3,7 3,8 3,8 3,81 3,7 2,9 3,9 44,72

N 1 2 3 4 5 6 7 8 9 10 11 12 

visina hemoglobina 108,4 112 87,3 99 93 92,3 90 94 95 92,3 7,96 80 1122,9

Konstruši regresionu liniju. Kao prvi korak podatke treba ubaciti u dijagram rasturanja, da bi se ocenilo postojanje korelacije i oblik zavisnosti. Ucrtane tačke najbolje pokazuju (aproksimiraju) oblik prave linije, kao i porast u pozitivnom smeru. To znači da sa porastom broja eritrocita raste i količina hemoglobina u krvi.

visina hemoglobina

120 100 80 60 40 20 0 0

1

2

3

4

5

broj eritrocita

143

Za izračunavanje jednačine regresije najpre treba formirati radnu tabelu, koja u našem primeru izgleda: N 1 2 3 4 5 6 7 8 9 10 11 12 

x 4,21 4,30 3,60 4,41 3,80 3,70 3,80 3,80 3,81 3,70 2,90 3,90 44,72

x

x2 17,72 18,49 12,96 16,81 14,44 13,96 14,44 14,44 14,52 13,69 8,41 9,00 168,61

y 108,4 112,0 87,3 99,0 93,0 92,3 90,0 94,0 95,0 92,3 77,96 80,0 1122,9

 x  44,72  3,73

i

12

n

b

n   xy   x   y n   x   x 2

2



y

y2 11750,56 12544,0 7621,29 980,0 8649,0 8519,19 8100,0 8836,0 9025,0 8519,29 6336,16 6400,0 106101,59

xy 456,36 481,60 314,28 405,90 353,40 341,51 342,00 357,20 361,95 341,51 230,84 240,00 4226,55

 y  1122,9  93,58 12

n

12  4226,5  44, 72 1122,9  22, 44 12 168, 61  44, 722

a  y  b  x  93,58  21  44  3  73  13, 61

Sada imamo sve parametre za izračunavanje jednačine regresije: yc = 13,61 + 21,44 · x Da bi smo konstruisali regresionu liniju, potrebno je odrediti bar dve koordinatne tačke. Uzećemo najmanju i najveću vrednost za nezavisno promenljivu (x). Za x=2,90 yc=13,61+21,44x2,90=75,79 Za x=4,41 yc=13,61+21,44x4,41=108,16 gde je yc ocena prosečne vrednosti za vrednost zavisno promenljive.

visina hemoglobina

120 100 80 60 40 20 0 0

1

2

3

broj eritrocita

144

4

5

Kao što se iz slike može videti, prava linija je blizu svih tačaka i zbir kvadrata odstupanja je manji nego za bilo koju drugu pravu liniju, tj. zbir kvadrata odstupanja je minimalan.

11.2. Korelaciona analiza Korelaciona analiza pokazuje stepen zavisnosti između promenljivih, odnosno korelacijom se meri jačina već utvrđene povezanosti između dve promenljive. Stepen intenziteta povezanosti između promenljivih, koje su u linearnom odnosu meri se:  kovarijansom, kao apsolutnom merom intenziteta korelacije i  koeficijentom proste lenearne korelacije, kao relativnom merom intenziteta korelacione veze. Kovarijansa predstavlja u suštini zajedničku meru varijabilnosti jedne i druge varijabile, pa se matematički može da predstavi kao zbir varijansi jedne i druge varijable:

 x  x  

2

C xy  SD  SD 2 x

2 y

tj.

C xy

n

 y  y  

2

n

Odakle se dobija radna formula za kovarijansu:

C xy 

 xy  x y n

gde je n veličina uzorka, odnosno, broj koreliranih parova vrednosti. Međutim, kovarijansa kao apsolutna mera stepena povezanosti nije pogodna za procenu, pa se pristupa izračunavanju relativne mere tj. izračunava se koeficijent proste linearne korelacije. Koeficijent proste linearne korelacije ili Pearson-ov koeficijent predstavlja kovarijansu izraženu u jedinicama standardnih devijacija obeju varijabli. Izračunava se kao količnik između kovarijanse i proizvoda standardnih devijacija jedne i druge varijable, pa je njegova formula:

Koeficijent proste linearne korelacije pokazuje stepen zavisnosti između promenljivih i on određuje veličinu disperzije (rasturanja) podataka oko regresione linije. Ako varijable nisu povezane disperzija oko regresione linije je velika. Sa povećanjem linearne povezanosti, disperzija se smanjuje i grafik postaje sve spljošteniji. Ako između dve promenljive postoji apsolutno slaganje svi podaci leže na regresionoj liniji.

145

A B C D E Grafik. A. savršena negativna korelacija; B. negativna korelacija; C. nema korelacije; D. pozitivna korelacija; E. savršena pozitivna korelacija Koeficijent korelacije ima vrednost koja se kreće u rasponu od -1 do +1. Ako varijable nisu povezane, r je jednak nuli. Kada većim vrednostima nezavisno promenljive x, odgovaraju i veće vrednosti zavisno promenljive y i obrnuto: opadanjem vrednosti nezavisne x, opadaju i vrednosti zavisne y - onda je to pozitivna korelacija (r>0). Obrnuto, kada većim vrednostima nezavisno promenljive x, odgovaraju manje vrednosti zavisno promenljive y, odnosno opadanjem vrednosti nezavisne x rastu vrednosti zavisne y - onda je to negativna korelacija (r<0). Važi opšte pravilo: što je vrednost koeficijenta proste linearne korelacije bliža jedinici, to je međuzavisnost među posmatranim pojavama jača. Koeficijent korelacije nikada nema vrednosti 1 ili -1, jer to bi značilo da između pojava postoji matematička, a ne statistička veza. Skala za tumačenje koeficijenata korelacije:

Vrednost koeficijenta korelacije može da se ocenjuje i preko specijalnih tablica za granične vrednosti rxy. Tablice prikazuju kolika mora da bude najmanja vrednost rxy, da bi se za određeni broj stepena slobode i za odgovarajući prag značajnosti (0,05 ili 0,01) mogao da smatra statistički signifikantnim. Broj stepeni slobode se izračunava po formuli: S.S. = n-2 gde je: n = broj parova. Primer: Utvrditi da li postoji korelacija između broja eritrocita i visine hemoglobina već datih podataka za 12 ispitanika. Ho: Između broja eritrocita i visine hemoglobina 12 ispitanika ne postoji korelacija Ha: Između broja eritrocita i visine hemoglobina 12 ispitanika postoji korelacija Sledeći korak je izračunavanje koeficijenta proste linearne korelacije. Formula za njegovo izračunavanje je:

rxy 

146

C xy SD x  SD y

pa je potrebno izračunati prvo Cxy i SDx i SDy.

C xy 

 xy  x y n

_

_

Kako smo već napravili radnu tabelu i izračunali x i y , možemo odmah krenuti na izračunavanje kovarijanse.

4226,56  3,727  93,575  3,46 12

C xy  SD x  SD y 

x

2

n

y

2

168,61  3,727 2  0,4 12

2

106101,59  93,575 2  9,25 12

x  2

n

y 

Sada imamo sve elemente za izračunavanje koficijenta, pa je:

rxy 

C xy SD x  SD y



3,46 3,46   0,94 0,4  9,25 3,7

Za naš primer vrednost koeficijenta korelacije je 0,94 što znači: Između broja eritrocita i vrednosti hemoglobina postoji jaka pozitivna (direktna) korelacija. Za naš primer S.S. = n – 2 = 12-2 = 10. Za stepen slobode 10 i p=0,05 granična vrednost rxy=0,576. rxy = 0,94 > rxy(10; 0,05) =0,576 i p < 0,05 Kako je dobijena rxy vrednost od 0,94 veća od granične tablične vrednosti, rxy=0,576, za broj stepeni slobode 10 i prag značajnosti od p=0,05, to odbacujemo nultu i prihvatamo alternativnu hipotezu sa greškom p<0,05 i sigurnošću P>95% tvrdimo da postoji jaka pozitivna korelacija između broja eritrocita i količine hemoglobina 12 ispitanika. Za stepen slobode 10 i p=0,01 granična vrednost rxy=0,708. rxy = 0,94 > rxy(10; 0,01) =0,708 i p < 0,01 Kako je dobijena rxy vrednost od 0,94 veća od granične tablične vrednosti, rxy=0,708, za stepen slobode 10 i prag značajnosti od p=0,01, odbacujemo nultu i prihvatamo alternativnu hipotezu sa greškom p<0,01 i sigurnošću P>99% tvrdimo da postoji jaka pozitivna korelacija između broja eritrocita i količine hemoglobina 12 ispitanika. Postoji još jedan statistički problem. Naime, koeficijent proste linearne korelacije se obično izračunava iz uzorka. Postavlja se pitanje njegove signifikantnosti za celu populaciju, odnosno da li uzorak iz koga je izračunat koeficijent dovoljno reprezentativan za donošenje nepristrasne ocene koeficijenta osnovnog skupa. Dok se to ne utvrdi, dobijena vrednost koeficijenta na osnovu uzorka predstavlja samo hipotezu o vrednosti istog koeficijenta osnovnog skupa.

147

Problem je rešen na sledeći način: Testira se hipoteza da li je izračunati prost koeficijent linearne korelacije iz uzorka (rxy) i precizna ocena prostog koeficijenta linearne korelacije osnovnog skupa (Rxy). Ako odgovarajućim testom odbacimo nultu hipotezu, prihvatamo izračunatu vrednost koeficijenta korelacije iz uzorka kao pravu ocenu koeficijenta u osnovnom skupu. Drugim rečima uzorak je reprezentativan, pa dobijeni rezultat može da se uopšti. Testiranje koeficijenta proste linearne korelacije se zasniva na Studentovom rasporedu za n-2 stepena slobode, a dobijena t-vrednost se tumači na isti način kao i kod klasičnog Studentovog t-testa. Test je matematički definisan formulom:

t

rxy 1  rxy2

ili

t  rxy

n2 1  rxy2

n2 gde je rxy - dobijena vrednost iz uzorka, a n - velicina uzorka (broj parova). Broj stepena slobode se izračunava po obrascu: S.S. = n-2. Dobijena t vrednost se tumači na isti način kao i kod klasičnog Studentovog t testa. Primer: Testirajmo dobijenu vrednost, rxy=0,94 za 12 osoba kod kojih je tražena veza izmedu broja eritrocita i vrednosti hemoglobina. Ho: Rxy (osnovnog skupa) = 0 Ha: Rxy (osnovnog skupa)  0

t

0,94 1  0,94 2 12  2



0,94  8,712 0,1078

t = 8,712 > t(10 i 0,05) = 2,23 i p <0,05 Kako je dobijena t vrednost od 8,712 veća od granične tablične vrednosti, t=2,23, za stepen slobode 10 i prag značajnosti od p=0,05, to odbacujemo nultu i prihvatamo alternativnu hipotezu sa greškom p<0,05 i sigurnošću P>95% zaključujemo: između broja eritrocita i vrednosti hemoglobina postoji visok stepen korelacije, a dobijena vrednost rxy=0,94 predstavlja stvarnu meru korelacije pa se zaključak može da uopšti na celu populaciju. t = 8,712 > t(10 i 0,01) = 3,17 i p <0,01 Kako je dobijena t vrednost od 8,712 veća od granične tablične vrednosti, t=3,17, za broj stepeni slobode 10 i prag značajnosti od p=0,01, odbacujemo nultu i prihvatamo alternativnu hipotezu sa greškom p<0,01 i sigurnošću P većim i od 99%. Pirsonov koeficijent korelacije daje informacije da li je povezanost varijabli slaba, umerena, jaka ili veoma jaka. Medutim, on nam ne daje i informaciju koliko je

148

zavisna promenljiva uslovljena vrednostima nezavisno promenljive, a koliko drugim faktorima. Ovaj problem rešava koeficijent determinacije, koji se najlakše izračunava kao drugi stepen koeficijenta proste linearne korelacije i on je mera za objašnjeni varijabilitet: koeficijent determinacije = rxy2 = 0,942 = 0,8836 Vrednost koeficijenta determinacije od 0,8836 nam pokazuje da su vrednosti hemoglobina sa 88,36% određene (determinisane) brojem eritrocita. Ostatak do 1 je koeficijent alijenacije: 1-rxy2=1-0,8836=0,1164 tj. 11,64% promena vrednosti hemoglobina uslovljeno je nekim drugim faktorima. Koeficijent alijenacije je mera za neobjašnjeni varijabilitet. Zbir objašnjenog (determinisanog) varijabiliteta i neobjašnjenog varijabiliteta je uvek jednak jedinici, odnosno 100%. U SPSS-u se koeficijent proste linearne korelacije se određuje na sledeći način: Obeleži se Analyse / Correlate i u desnom grananju Bivariate:

U radnom prozoru koji se otvara zadrže se opcije koje je ponudio računar: Pearson, Two-tailed i Flag significant correlations. Željene varijable se prebace iz levog u desni prozor, u našem slučaju varijabla sa brojem eritrocita (“broj Er”) i visinom hemoglobina (“Hb”).

149

Klikne se na OK i dobiju rezultati: Correlations

brojEr

Hb

brojEr Hb Pearson Correlation 1 Sig. (2-tailed) N 12 Pearson Correlation .778** Sig. (2-tailed) .003 N 12 **. Correlation is significant at the 0.01 level

.778** .003 12 1 12

U tabeli su date vrednost Pirsonovog koeficijenta korelacije koji je za dati primer 0,778, a vrednosti p se čita u Sig. (2-tailed) i iznosi 0,003 u datom zadatku.

11.3. Spearman-ov koeficijent rang korelacije Spearmanov koeficijent rang korelacije je neparametrijski ekvivalent Pearsonovom koeficijentu linearne korelacije. Razlika je u tome što se računske operacije ne izvode iz numeričkih vrednosti zavisne i nezavisno promenljive pojave, već iz njihovih relativnih odnosa tj. rangova.    

150

Računamo ga, umesto Pearsonovog koeficijenta, u sledećim slučajevima: barem jedna od varijabli, x ili y, merena je ordinalnom skalom ni x ni y nemaju normalnu distribuciju uzorak je mali treba nam mera povezanosti između dve varijable kada ta povezanost nije linearna Postupak se odvija u dve etape:

1. Stvarne numeričke vrednosti i zavisne i nezavisne pojave sređuju se po veličini, od najmanje do najveće (ili obrnuto) i određuje se njihov rang tj. obeleže se kao: prvi rang (prvo mesto = 1), drugi rang (drugo mesto = 2), treći rang (treće mesto po velicini = 3) i tako do n-tog ranga. Kod rangova ne znamo stvarne razlike između numeričkih vrednosti, nego jedino razlike između rangova. 2. Kada smo prave vrednosti transformisali u rangove pristupa se izračunavanju tzv. rang korelacije, tj. izračunava se korelacija među rangovima. Ovaj postupak je kraći i praktičniji od Pearson-ove linearne korelacije, pogotovu ako broj parova nije veliki. Spearman-ov koeficijent rang korelacije se izračunava po formuli:

  1

6d 2

n  n 2  1

,

gde je:  - (ro) Spearmanov koeficijent, d – razlika (diferencija) između rangova x i y, n - broj parova rangova promenljivih x i y.

Stepen slobode se izračunava: S.S. = n. Koeficijent rang korelacije takođe može da ima vrednosti od -1 do + 1. Što je razlika između rangova obeležja x i y manja, to se njegova vrednost više približava vrednostima + 1 i -1, a to znači i da je stepen korelacije veći između posmatranih pojava. Razlika između Pirsonovog koeficijenta proste linearne korelacije i Spirmanovog koeficijenta rang korelacije je u tome što se ovaj poslednji može da izračunava iz podataka kada je merenje vršeno na ordinalnoj skali. Spirmanov koeficijent može da zameni Pirsonov, ako se intervalni podaci prevedu u ordinalne tj. ako se rangiraju po veličini. Obrnuto, ako su podaci dati u ordinarnoj skali, može da se primeni samo Spirmanov koeficijent. Bitna razlika je i u sledećem: Statistička snaga “power” Pirsonovog koeficijenta je znatno veća nego Spirmanovog, pa zato ako su podaci dati intervalno, prednost treba dati Pirsonovom koeficijentu, a Spirmanov zbog lakoće izračunavanja primeniti kao pilot probu. Primer: Asistent je rangirao 7 studenata iz svoje grupe u odnosu prema nastavi (x) i stepenu obučenosti za praktičan rad (y). Kao rang 1 je koristio najpovoljniju, a kao rang 7 najnepovoljniju ocenu za oba modaliteta. student rang za x rang za y

A 4 3

B 2 1

C 6 6

D 1 2

E 3 4

F 7 7

G 5 5

Da li je odnos prema nastavi u međuzavisnosti sa obučenošću za praktičan rad?

151

Ho: Između odnosa prema nastavi i obučenosti za praktičan rad ne postoji međuzavisnost. Ha: Između odnosa prema nastavi i obučenosti za praktičan rad postoji međuzavisnost. Konstruišemo radnu tabelu i sređujemo rangove po veličini: student A B C D E F G 

rang za x 4 2 6 1 3 7 5 -

rang za y 3 1 6 2 4 7 5 -

d 1 1 0 -1 -1 0 0 -

D2 1 1 0 1 1 0 0 4

Spirmanov koeficijent rang korelacije je:

  1

6d 2





n  n 1 2

 1

64  0,93 7  72 1





S.S. = 7 ρ=0,93>ρ(7 i 0,05)=0,786 i p<0,05 Dakle, između odnosa prema nastavi i obučenosti za praktičan rad postoji jaka međuzavisnost, što tvrdimo sa p<0,05. U SPSS-u se koeficijent proste linearne korelacije se određuje na sledeći način: Biramo: Analyse / Correlate / Bivariate

152

U radnom prozoru se zadrže opcije koje ponudi računar Two-tailed i Flag significant correlations. Obeleži se opcija za željeni test, tj. Spearman. Ispitivane varijable se prebace iz levog u desni prozor, u našem slučaju varijabla sa odnosom prema nastavi (“nastava”) i stepenom obučenosti za praktični rad (“praksa”).

Klikne se na OK i dobiju rezultati: Correlations

Spearman's rho

nastava Correlation Coefficient 1.000 Sig. (2-tailed) . N 7 praksa Correlation Coefficient .929** Sig. (2-tailed) .003 N 7 **. Correlation is significant at the 0.01 level (2-tailed) nastava

praksa .929** .003 7 1.000 . 7

U tabeli su date vrednosti Spirmanovog koeficijenta ρ (0,929) i vrednost p (0,003) - Sig. (2-tailed).

153

Zadaci za vežbanje

1. Izmerena je koncentracija kiseonika kod 10 zdravih odraslih muškaraca i dobijene su sledeće vrednosti: N 1 2 3 4 5 6 7 8 9 10 arterijska 23 17 19 20 22 21 21 19,5 20,5 24 venska 16 11,5 13 14 12,5 14,5 14,2 11,5 17 18 Da li postoji povezanost između koncentracije kiseonika u arterijskoj i venskoj krvi? Dobijene podatke rangiraj i izračunaj Spirmanov koeficijent rang korelacije. 2. U grupi 11 obolelih od skleritisa udruženog sa sistemskim bolestima vezivnog tkiva registrovan je broj recidiva i nivo cirkulišućih imunih kompleksa (CIC). Može li se na osnovu nivoa CIC prognozirati učestralčst recidiva? Br.recidiva 6 10 15 3 4 2 6 2 4 15 3 CIC (mg%) 171 149 265 168 55 7 37 55 146 144 82 3. Ugrupi od 10 bolesnika sa glaukomom izmerena je aktivnost enzima superoksiddismutaze (SOD) u očnoj vodici, prilikom operacije, a takođe i koeficijent lakoće isticanja očne vodice (C). Da li je aktivnost enzima povezana sa promenom koeficijenta lakoće isticanja očne vodice (C)? SOD 1,5 1,6 1,7 1,9 1,1 1,3 1,4 1,3 1,4 1,7 C 0,08 0,06 0,09 0,06 0,14 0,12 0,10 0,16 0,12 0,06 4. Kod trinaestoro dece izvršeno je tuberkulinsko testiranje, a rezultate su čitala dva lekara sa sledećim nalazima: r.br. 1 2 3 4 5 6 7 8 9 10 11 12 13 lekar A 6 4 8 12 14 9 15 5 5 3 7 11 13 lekar B 5 4 7 10 15 10 16 7 5 3 7 9 14 Da li postoji slaganje između lekara A i B u očitavanju veličine tuberkulinske reakcije? 5. Kod 40 osoba meren je sistolni pritisak i dobijeni su sledeći rezultati u odnosu na godine starosti:  starost: x  49,2 , SD x  8,2 , x 2  1968 , xy  1968





sistolni pritisak: y  140 , SD y  14 ,

y



2

 5600

Utvrdi da li postoji veza između godina starosti i sistolnog pritiska?

154

12. JEDNOSTRANA ANALIZA VARIJANSE – ONE WAY ANOVA Analiza varijanse - ANOVA je metoda koja omogućava deljenje varijanse (varijabiliteta) dobijene u rezultatima istraživanja na delove, pri čemu je moguće te delove varijanse dovesti u vezu sa nekim poznatim uzrokom ili faktorom. Ovom metodom je moguće odrediti veličinu varijanse koju objašnjava neki faktor i proceniti da li je taj deo varijanse veći od očekivanja na osnovu nulte hipoteze. Najvažnije oblasti u kojima se ANOVA primenjuje su: - Jednostrana ANOVA (One-Way ANOVA) - Univarijantni generalizovani linearni modeli (GLM Univariate) - Multivarijantni generalizovani linearni modeli (GLM Multivariate) - Generalizovani linearni modeli za ponovljena merenja (GLM Repeated Measures). Jednostrana (jednostruka) ANOVA je metoda kojom se porede aritmetičke sredine numeričkih obeležja kod tri i više nezavisnih uzoraka. Uslovi za njenu primenu su normalna ili bar simetrična distribucija (bez ekstremnih vrednosti) i bar intervalna merna skala. Zbog čega za poređenje srednjih vrednosti kod više od dve grupe ispitanika koristimo jednostranu ANOVA-u, a ne nekoliko puta Studentov t-test? Prvi razlog: Dozvoljena greška procene za tvrdnju da statistički značajna razlika postoji kod poređenja vrednosti za dve grupe ispitanika iznosi do 5% (p<0,05). Ukoliko poredimo tri grupe i kod svakog od tri poređenja t-testom (I: prva i druga; II: prva i treća; III: druga i treća grupa) dobijemo da je greška procene 4,9%, odnosno p=0,049 (p<0,05) tvrdićemo da su razlike između sve tri grupe statistički značajne. Kolika bi bila verovatnoća da smo barem negde u našem zaključivanju načinili grešku veću od 5%? Sigurno veća od 5%. Proverimo. Verovatnoća greške kod više poređenja računa se po formuli: Verovatnoća greške = 1 - (1 - 0,05)broj poređenja Kod tri grupe imamo tri poređenja, pa bi verovatnoća da smo barem negde načinili grešku veću od 5% bila: Verovatnoća greške = 1 - (1 - 0,05)3 = 1 – 0,953 = 1 – 0,857 = 0,143 = 14,3% Drugi razlog: Što više grupa imamo za poređenje, to više t-testova bi trebalo raditi (na primer, za poređenje 6 grupa bi trebalo uraditi: 6x5/2=15 t-testova). Odbacivanje nulte hipoteze znači da se uzorci ponašaju kao da ne potiču iz iste populacije već iz značajno različitih populacija. Ukoliko se nulta hipoteza odbaci, to znači da se aritmetičke sredine značajno razlikuju kod bar dva uzorka, ali nemamo informaciju kod kojih. Zbog toga je potrebno primeniti i naknadno (post hoc) testiranje svakog sa svakim uzorkom da bi se utvrdilo između kojih to uzoraka postoji značajna razlika u aritmetičkim sredinama. Post hoc testova ima veći broj, a svi se dele na one koji se primenjuju kada se može predpostaviti

155

jednakost varijansi kod uzoraka i one koji se primenjuju kada se homogenost varijansi ne može predpostaviti. Ne postoji jednostavna preporuka koji tačno post hoc test primeniti, ali po pravilu kada jedan test potvrdi da između aritmetičkih sredina dva uzorka postoji značajna razlika, to potvrđuju i drugi testovi. Ukoliko se grupe bitno razlikuju po broju ispitanika, a Levenov test potvrđuje homogenost varijanse, najbolje je koristiti Tuki (Tukey) post hoc test jer on sadrži Kajzerovu korekciju za nejednake veličine uzorka. Kada se u jednostranoj ANOVA-i tretiraju dva uzorka, tada nije moguće sprovesti post hoc testiranje, ali se tada F test poistovećuje sa t-testom i validan je za poređenje aritmetičkih sredina između ta dva uzorka. Jednostrana ANOVA se zasniva na poređenju varijabilnosti (varijansi) vrednosti između grupa i unutar grupa. Odnos između međugrupne i unutargrupne varijabilnosti izražava se pomoću F vrednosti i verovatnoće greške njene procene. F=

varijansa medjugrupnog varijabiliteta SD 2m  varijansa unutargrupnog varijabiliteta SD 2u

Kada međugrupna varijabilnost značajno prevazilazi unutargrupnu odbacujemo nultu hipotezu. Varijansa unutargrupnog varijabiliteta izračunava se kao količnik ukupnog unutargrupnog varijabiliteta - Vu i broja stepeni slobode koji iznosi n-k, gde je n ukupan broj jedinica posmatranja, a k broj poređenih grupa. Ukupni unutargrupni varijabilitet Vu dobija se kada se saberu unutrašnji varijabiliteti svih grupa, a unutrašnji varijabilitet svake grupe je zbir kvadrata odstupanja svake njene pojedinačne vrednosti od aritmetičke sredine. Varijansa međugrupnog varijabiliteta izračunava se kao količnik međugrupnog varijabiliteta - Vm i broja stepeni slobode koji iznosi k-1, gde je k broj poređenih grupa. Međugrupni varijabilitet - Vm predstavlja zbir kvadrata odstupanja aritmetičkih sredina grupa od zajedničke aritmetičke sredine pomnoženih brojem članova u grupi. Primer: Posmatrane su tri bolnice gde je od iste bolesti lečeno po 5 ispitanika, a vreme lečenja u danima je iznosilo: Dužina lečenja Pacijent I bolnica II bolnica III bolnica X2 X3 X1 1 2 6 10 2 3 7 11 3 4 8 12 4 5 9 13 5 6 10 14 20 40 60  Da li postoji značajna razlika u prosečnom vremenu lečenja između bolnica?

156

Izračuna se prosečno vreme lečenja po jednom bolesniku u svakoj od ispitivanih bolnica: X1 

X 1 20  4 n1 5

X2 

X 2 40  8 n2 5

X3 

X 3 60   12 n3 5

Zajednička ili totalna aritmetička sredina iznosi: X 1  X 2  X 3 20  40  60 120   8 555 15 n1  n2  n3

X total 

Da bi izračunali unutrašnji varijabilitet svake grupe formiramo sledeću radnu tabelu:

X

Pacijent 1 2 3 4 5 

1

 X1



2

X

 X2

2

4 1 0 1 4 10



2

X

3

4 1 0 1 4 10

 X3



2

4 1 0 1 4 10

Zatim se saberu unutrašnji varijabiliteti svih grupa i dobijamo unutargrupni varijabilitet:



Vu  X 1  X 1



 X 2

2

 X2

 X 2

3

 X3



2

 10  10  10  30

Međugrupni varijabilitet izračunavamo kao:

Vm  X 1  X total



2



 n1  X 2  X total



2



 n2  X 3  X total



2

 n3   4  8   5   8  8   5  12  8   5  160 2

2

2

Za izračunavanje varijansi unutargrupnog i međugrupnog varijabiliteta, potrebni su nam još stepeni slobode. Za međugrupni varijabilitet stepen slobode iznosi k-1, u našem primeru: S.S.m=3-1=2 Za unutargrupni varijabilitet stepen slobode iznosi n-k: S.S.u=15-3=12 Sada imamo sve elemente za izračunavanje varijansi. Varijansa međugrupnog varijabiliteta iznosi: SDm2 

Vm 160   80 S .S .m 2

Varijansa unutargrupnog varijabiliteta: SDu2 

Vu 30   2,5 S .S .u 12

157

Na kraju izračunavamo F-vrednost: F=

varijansa medjugrupnog varijabiliteta SD 2m 80    32 varijansa unutargrupnog varijabiliteta SD 2u 2,5

F-vrednost od 32 govori da je varijansa međugrupnog varijabiliteta 32 puta veća od varijanse unutargrupnog varijabiliteta. Pitanje je da li je ova vrednost statistički značajna. Odgovor na ovo pitanje dobija se na osnovu Snedecorovih tablica za granične F-vrednosti, a prema F distribuciji. Granična F-vrednost se očitava na preseku stepena slobode S.S.u i S.S.m. Za stepene slobode 12 i 2, kao u našem primeru, i prag značajnosti od 0,05, granična tablična F-vrednost iznosi 3,88. Kako je naša dobijena F-vrednost, F=32 veća od granične tablične vrednosti, odbacujemo nultu hipotezu i sa sigurnošću većom od 95% tvrdimo da postoji statistički značajna razlika između međugrupnog i unutargrupnog varijabiliteta, odnosno da se grupe ponašaju kao da ne pripadaju istom osnovnom skupu. I dalje ostaje otvoreno pitanje: Između kojih grupa je izražena razlika? Na ovo pitanje odgovor daje post-hok analiza, odnosno primena nekog od testova za procenu F-vrednosti. Tukey-ov test

Izračunaju se apsolutne vrednosti razlika između svakog para grupnih aritmetičkih sredina:

X1  X 2  4  8  4

X1  X 3  4  12  8

X2  X3  8 12  4 Izračuna se vrednost D po formuli:

SD 2u D  Q n gde Q predstavlja vrednost koja se očitava u posebnim tablicama za odgovarajuće stepene slobode i željenu značajnost. U našem primeru za S.S.u=12, S.S.m=2 i p=0,05 vrednost Q iznosi 3,16

D  3,16 

158

2,5  2, 23 5

Kako je granična D vrednost 2,23 manja od sve tri vrednosti razlika aritmetičkih sredina između grupa, zaključujemo da postoji statistički značajna razlika između dužine lečenja u sve tri bolnice, odnosno da lečenje u prvoj bolnici traje značajno kraće nego u drugoj i trećoj, a u trećoj traje značajno duže nego u prvoj i drugoj. Ovo tvrdimo sa sigurnošću većom od 95%. U SPSS-u zadatak se radi na sledeći način: Podatke unosimo tako što ćemo prvu varijablu nazvati dani. U ovu kolonu unećemo broj dana odnosno dužinu lečenja. Druga varijabla koju unosimo je bolnica: sa 1- označićemo prvu bolnicu, sa 2 – drugu bolnicu i sa 3 – treću bolnicu. Da bi se aktivirala ANOVA biramo: Analyze / Compare Means / One-Way ANOVA.

U radnom prozoru koji se otvara u polje Dependent list prebacujemo zavisnu varijablu, to je u ovom primeru varijabla dani, a u Factor prebacimo varijablu sa šiframa grupa koje se upoređuju, a to su u ovom slučaju bolnice.

Nakon unosa varijabli u predviđena polja, klikne se na dugme Post Hoc.

159

U ovom radnom prozoru biramo koji ćemo post hoc test primeniti za poređenje aritmetičkih sredina između svih parova grupa. Od testova koji predpostavljaju jednake varijanse štikliramo Tukey (Tuki), a od testova koji ne predpostavljaju jednake varijanse štikliramo: Dunnett T3 (Danet). Kliknemo: Continue>OK Dobijaju se sledeće tabele sa rezultatima: Test of Homogeneity of Variances UZR Levene Statistic 1,086

df1

df2 2

27

Sig. ,352

U prvoj tabeli je rezultat Levenovog testa koji potvrđuje predpostavku homogenosti varijansi u tri uzorka (p=0,352 odnosno p>0,05). ANOVA dani

Between Groups Within Groups Total

Sum of Squares 160.000 30.000 190.000

df 2 12 14

Mean Square 80.000 2.500

F 32.000

Sig. .000

Na osnovu vrednosti F statistika (F=32,00) i verovatnoće greške procene (Sig.) od 0,000 (p<0,001) zaključujemo da se uzorci ne ponašaju kao da potiču iz iste populacije, odnosno da postoji značajna razlika aritmetičkih sredina barem između dva od tri uzorka.

160

Označili smo da želimo dva post hoc testa, ali nam je Levenov test potvrdio predpostavku homogenosti varijanse, pa ćemo tumačiti samo rezultate Tukijevog testa, a on pokazuje da postoji statistički značajna razlika u dužini lečenja između prve i druge bolnice (p=0,005; p<0,01), prve i treće (p=0,000; p<0,001), kao i druge i treće bolnice (p=0,005; p<0,001).

161

PRILOG Površine ispod normalne krive (Svakoj vrednosti predhodi decimalni zarez) z

162

xx 0 1 SD 0,0 0000 0040 0,1 0398 0438 0,2 0793 0832 0,3 1179 1217 0,4 1554 1519 0,5 1915 1950 0,6 2257 2291 0,7 2580 2611 0,8 2881 2910 0,9 3159 3186 1,0 3413 3438 1,1 3643 3665 1,2 3849 3869 1,3 4032 4049 1,4 4192 4207 1,5 4332 4345 1,6 4452 4463 1,7 4554 4564 1,8 4641 4649 1,9 4713 4719 2,0 4772 4778 2,1 4821 4826 2,2 4861 4864 2,3 4893 4896 2,4 4918 4920 2,5 4938 4940 2,6 4953 4955 2,7 4965 4966 2,8 4974 4975 2,9 4981 4982 3,0 4987 4987 3,1 4900 4991 3,2 4993 4993 3,3 4995 4995 3,4 4997 4997 3,6 4998 4998 3,9 4999 4,0 49997 4,5 4999966 5,0 499999713

2

3

4

5

6

7

8

9

0080 0478 0871 1255 1628 1985 2324 2642 2939 3212 3461 3686 3888 4066 4222 4357 4474 4573 4656 4726 4783 4830 4868 4898 4922 4941 4956 4967 4976 4982 4987 4991 4994 4995 4997 4999

0120 0517 0910 1293 1664 2019 2357 2673 2967 3238 3485 3708 3907 4082 4236 4370 4484 4582 4664 4732 4788 4834 4871 4901 4925 4943 4957 4968 4977 4983 4988 4991 4994 4996 4997 4999

0160 0557 0948 1331 1700 2054 2389 2704 2995 3264 3508 3729 3925 4099 4251 4382 4495 4591 4671 4738 4793 4838 4875 4904 4927 4945 4959 4969 4977 4984 4988 4992 4994 4996 4997 4999

0199 0596 0987 1368 1736 2088 2422 2734 3023 3289 3531 3749 3944 4115 4265 4394 4505 4599 4678 4744 4708 4842 4878 4906 4929 4946 4960 4970 4978 4984 4989 4992 4994 4996 4997 4999

0239 0636 1026 1406 1772 2123 2454 2764 3051 3315 3554 3770 3962 4131 4279 4406 4515 4608 4686 4750 4803 4846 4881 4909 4931 4948 4961 4971 4979 4985 4989 4992 4994 4996 4997 4999

0279 0675 1064 1443 1808 2157 2486 2794 3078 3340 3577 3790 3980 4147 4292 4418 4525 4611 4693 4756 4808 4850 4884 4911 4932 4949 4962 4972 4979 4985 4989 4992 4995 4996 4997 4999

0319 0714 1103 1480 1844 2190 2517 2823 3106 3365 3599 3810 3997 4162 4306 4429 4335 4625 4699 4761 4812 4854 4887 4913 4934 4951 4963 4973 4980 4986 4990 4993 4995 4996 4997 4999

0359 0753 1141 1517 1879 2224 2549 2852 3133 3389 3621 3830 4015 4177 4319 4441 4545 4633 4706 4767 4817 4857 4890 4916 4936 4952 4964 4974 4981 4986 4990 4993 4995 4997 4998 4999

Studentova t-distribucija Stepen slobode 1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 24 26 28 30 40 60 80 100 120  Normalna distibucija

0,10 6,31 2,92 2,35 2,13 2,02 1,94 1,90 1,86 1,83 1,81 1,78 1,76 1,75 1,73 1,72 1,72 1,71 1,71 1,70 1,70 1,68 1,67 1,66 1,66 1,66 1,645

nivo greške = p 0,05 0,01 12,70 63,70 4,30 9,92 3,18 5,84 2,78 4,60 2,57 4,03 2,45 3,71 2,36 3,50 2,31 3,36 2,26 3,25 2,23 3,17 2,18 3,06 2,14 2,98 2,12 2,92 2,10 2,88 2,09 2,84 2,07 2,82 2,06 2,80 2,06 2,78 2,05 2,76 2,04 2,75 2,02 2,70 2,00 2,66 1,99 2,64 1,98 2,63 1,98 2,62 1,96 2,576

0,001 637,00 31,60 12,90 8,61 6,86 5,96 5,40 5,04 4,78 4,59 4,32 4,14 4,02 3,92 3,85 3,79 3,74 3,71 3,67 3,65 3,55 3,46 3,42 3,39 3,77 3,291

163

Hi-kvadrat distribucija Stepeni slobode 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

p = 0,10

p = 0,05

p = 0,01

p = 0,001

2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256

3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773

6,635 9,210 11,341 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892

10,827 13,815 16,268 18,465 20,517 22,457 24,322 26,125 27,877 29,588 31,264 32,909 34,528 36,123 37,697 39,252 40,790 42,312 43,820 45,315 46,797 48,268 49,728 51,179 52,620 54,052 55,476 56,893 58,302 59,703

Ako je broj stepena slobode veci od 30, tablične vrednosti mogu da se aproksimiraju formulom:

F GH

1 S . S .  B 2

I JK

2

gde je: S.S. - broj stepena slobode B - konstanta koja iznosi 0,91 (p=0,10); 1,16 (p=0,05); 1,64 (p=0,01) ili 2,19 (p=0,001).

164

Izvod iz Snedecorove F-distribucije (za analizu varijanse) Granične vrednosti F na nivou signifikantnosti od 5 % k-1 n-k 1 2 3 4 5 6 8 12 24  1 161,45 199,5 215,72 224,57 230,17 233,97 238,89 243,91 249,04 254,32 2 18,512 18,999 19,163 19,248 19,298 19,329 19,371 19,414 19,453 19,496 3 10,129 9,552 9,276 9,118 9,014 8,941 8,844 8,744 8,638 8,527 4 7,71 6,945 6,591 6,388 6,257 6,164 6,041 5,912 5,774 5,628 5 6,607 5,786 5,410 5,192 5,050 4,950 4,818 4,678 4,527 4,365 6 5,987 5,143 4,756 4,534 4,388 4,284 4,147 4,000 3,841 3,669 7 5,591 4,737 4,347 4,121 3,972 3,866 3,725 3,574 3,410 3,230 8 5,317 4,457 4,067 3,838 3,688 3,580 3,438 3,284 3,116 2,928 9 5,117 4,256 3,863 3,633 3,482 3,374 3,230 3,073 2,900 2,707 10 4,965 4,103 3,708 3,478 3,326 3,217 3,072 2,913 2,737 2,538 11 4,844 3,982 3,587 3,357 3,204 3,094 2,948 2,788 2,609 2,405 12 4,747 3,885 3,490 3,259 3,106 2,999 2,848 2,686 2,505 2,296 13 4,667 3,805 3,410 3,179 3,025 2,915 2,767 2,604 2,420 2,207 14 4,600 3,739 3,344 3,112 2,958 2,848 2,699 2,534 2,349 2,131 15 4,543 3,683 3,287 3,056 2,901 2,790 2,641 2,475 2,288 2,066 16 4,494 3,634 3,239 3,007 2,853 2,741 2,591 2,424 2,235 2,010 17 4,451 3,592 3,197 2,965 2,810 2,699 2,548 2,381 2,190 1,961 18 4,414 3,555 3,160 2,928 2,773 2,661 2,510 2,342 2,150 1,917 19 4,381 3,522 3,127 2,895 2,740 2,629 2,477 2,308 2,114 1,878 20 4,351 3,493 3,098 2,866 2,711 2,599 2,447 2,278 2,083 1,843 21 4,325 3,467 3,072 2,840 2,685 2,573 2,421 2,250 2,054 1,812 22 4,301 3,443 3,049 2,817 2,661 2,549 2,397 2,226 2,028 1,783 23 4,279 3,422 3,028 2,795 2,640 2,528 2,375 2,203 2,005 1,757 24 4,260 3,403 3,009 2,777 2,621 2,508 2,355 2,183 1,984 1,733 25 4,242 3,385 2,991 2,759 2,603 2,490 2,337 2,165 1,965 1,711 26 4,225 3,369 2,975 2,743 2,587 2,474 2,321 2,148 1,947 1,691 27 4,210 3,354 2,961 2,728 2,572 2,459 2,305 2,132 1,930 1,672 28 4,196 3,340 2,947 2,714 2,558 2,445 2,292 2,118 1,915 1,654 29 4,183 3,328 2,934 2,702 2,545 2,432 2,278 2,104 1,901 1,638 30 4,183 3,328 2,934 2,702 2,545 2,432 2,278 2,104 1,901 1,638 40 4,085 3,238 2,839 2,606 2,449 2,336 2,180 2,004 1,793 1,509 60 4,001 3,151 2,758 2,525 2,368 2,254 2,097 1,918 1,700 1,389 120 3,946 3,072 2,680 2,447 2,290 2,175 2,016 1,834 1,608 1,254 3,841 2,996 2,605 2,372 2,214 2,098 1,938 1,752 1,517 1,000 

165

Izvod iz Snedecorove F-distribucije (za analizu varijanse) Granične vrednosti F na nivou signifikantnosti od 1 %

n-k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 

166

1 4052,1 98,495 34,117 21,200 16,258 13,744 12,346 11,295 10,561 10,044 9,647 9,330 9,074 8,862 8,683 8,532 8,400 8,285 8,184 8,096 8,017 7,944 7,881 7,823 7,770 7,722 7,677 7,636 7,597 7,563 7,314 7,077 6,851 6,635

2 4999,0 99,008 30,815 18,001 13,274 10,924 9,546 8,649 8,022 7,560 7,205 6,927 6,701 6,514 6,359 6,227 6,112 6,013 5,926 5,849 5,780 5,719 5,663 5,614 5,568 5,527 5,488 5,453 5,421 5,390 5,179 4,978 4,786 4,605

3 5403,5 99,167 29,459 16,693 12,059 9,779 8,452 7,591 6,992 6,552 6,217 5,953 5,740 5,563 5,417 5,292 5,185 5,092 5,010 4,938 4,875 4,816 4,765 4,718 4,676 4,637 4,601 4,568 4,538 4,510 4,312 4,126 3,949 3,782

4 5625,1 99,247 28,709 15,978 11,391 9,149 7,846 7,006 6,423 5,994 5,668 5,412 5,205 5,035 4,893 4,772 4,669 4,579 4,501 4,431 4,368 4,314 4,264 4,218 4,177 4,140 4,106 4,074 4,045 4,018 3,828 3,649 3,479 3,320

k-1 5 6 5764,1 5859,4 99,305 99,325 28,236 27,910 15,521 15,208 10,966 10,672 8,746 8,465 7,460 7,191 6,631 6,371 6,057 5,802 5,636 5,386 5,317 5,069 5,064 4,820 4,862 4,620 4,695 4,456 4,556 4,318 4,437 4,201 4,336 4,102 4,248 4,015 4,170 3,939 4,103 3,871 4,042 3,811 3,988 3,759 3,939 3,710 3,895 3,666 3,855 3,627 3,818 3,591 3,785 3,558 3,754 3,528 3,726 3,599 3,699 3,474 3,513 3,291 3,339 3,119 3,173 2,956 3,017 2,802

8 5981,4 99,365 27,489 14,800 10,266 8,101 6,840 6,029 5,467 5,057 4,745 4,500 4,302 4,140 4,004 3,889 3,791 3,706 3,631 3,565 3,506 3,453 3,406 3,363 3,324 3,288 3,256 3,226 3,198 3,173 2,993 2,823 2,663 2,511

12 6105,8 99,425 27,053 14,374 9,888 7,718 6,469 5,667 5,111 4,706 4,397 4,156 3,961 3,800 3,668 3,553 3,455 3,370 3,296 3,231 3,173 3,121 3,074 3,031 2,993 2,958 2,925 2,896 2,869 2,843 2,665 2,496 2,336 2,182

24 6234,2 99,464 26,597 13,930 9,467 7,313 6,074 5,279 4,730 4,327 4,021 3,780 3,586 3,427 .3,294 3,181 3,083 2,999 2,925 2,859 2,801 2,749 2,702 2,659 2,620 2,585 2,551 2,522 2,494 2,469 2,287 2,115 1,950 1,791

 6366,5 99,504 26,122 13,464 9,019 6,880 5,650 4,859 4,311 3,909 3,602 3,361 3,165 3,005 2,869 2,753 2,653 2,566 2,489 2,421 2,360 2,305 2,256 2,210 2,169 2,132 2,096 2,064 2,034 2,006 1,805 1,601 1,380 1,000

Vrednost Q za p=0,05 Stepeni slobode 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 60 120 

Broj grupa 2 3 4 5 6 7 8 9 10 18,00 26,70 32,80 37,20 40,50 43,10 45,40 47,30 49,10 6,09 8,28 9,80 10,89 11,73 12,43 13,03 13,54 13,99 4,50 5,88 6,83 7,51 8,04 8,47 8,85 9,18 9,46 3,93 5,00 5,76 6,31 6,73 7,06 7,35 7,60 7,83 3,61 4,54 5,18 5,64 5,99 6,28 6,52 6,74 6,93 3,46 4,34 4,90 5,31 5,63 5,89 6,12 6,32 6,49 3,34 4,16 4,68 5,06 5,35 5,59 5,80 5,99 6,15 3,26 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92 3,20 3,95 4,42 4,76 5,02 5,24 5,43 5,60 5,74 3,15 3,88 4,33 4,66 4,91 5,12 5,30 5,46 5,60 3,11 3,82 4,26 4,58 4,82 5,03 5,20 5,35 5,49 3,08 3,77 4,20 4,51 4,75 4,95 5,12 5,27 5,40 3,06 3,73 4,15 4,46 4,69 4,88 5,05 5,19 5,32 3,03 3,70 4,11 4,41 4,64 4,83 4,99 5,13 5,25 3,01 3,67 4,08 4,37 4,59 4,78 4,94 5,08 5,20 3,00 3,65 4,05 4,34 4,56 4,74 4,90 5,03 5,15 2,98 3,62 4,02 4,31 4,52 4,70 4,86 4,99 5,11 2,97 3,61 4,00 4,28 4,49 4,67 4,83 4,96 5,07 2,96 3,59 3,98 4,26 4,47 4,64 4,79 4,92 5,04 2,95 3,58 3,96 4,24 4,45 4,62 4,77 4,90 5,01 2,92 3,53 3,90 4,17 4,37 4,54 4,68 4,81 4,92 2,89 3,48 3,84 4,11 4,30 4,46 4,60 4,72 4,83 2,86 3,44 3,79 4,04 4,23 4,39 4,52 4,63 4,74 2,83 3,40 3,74 3,98 4,16 4,31 4,44 4,55 4,65 2,80 3,36 3,69 3,92 4,10 4,24 4,36 4,47 4,56 2,77 3,32 3,63 3,86 4,03 4,17 4,29 4,39 4,47

167

Granične vrednosti koeficijenta linearne korelacije Stepeni slobode 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 40 50 60 120 S.S. = N-2 N=broj parova

168

Verovatnoća nulte hipoteze p=0,05 p=0,01 0,997 1,000 0,950 0,990 0,878 0,959 0,811 0,917 0,755 0,875 0,707 0,834 0,666 0,798 0,632 0,765 0,602 0,735 0,576 0,708 0,553 0,684 0,532 0,661 0,514 0,641 0,497 0,623 0,482 0,606 0,468 0,590 0,456 0,575 0,444 0,561 0,433 0,549 0,423 0,537 0,413 0,526 0,404 0,515 0,396 0,505 0,388 0,496 0,381 0,487 0,349 0,449 0,304 0,393 0,273 0,354 0,250 0,325 0,173 0,227

Granične vrednosti koeficijenta Rang korelacije Broj parova (N) 5 6 7 8 9 10 12 14 16 18 20 22 24 26 28 30

Nivo značajnosti 0,05 1,000 0,886 0,786 0,738 0,683 0,648 0,591 0,544 0,506 0,475 0,450 0,428 0,409 0,392 0,377 0,364

0,01 1,000 0,929 0,881 0,833 0,794 0,777 0,715 0,665 0,625 0,591 0,562 0,537 0,515 0,496 0,478

169

LITERATURA 1.

Altman D. Practical Statistics For Medical Research. London, Chapman and Hall, 1991.

2.

Armitage P, Berry G, Matthews JNS: Statistical Methods in Medical Research, ed 4. Oxford, Blackwell Science, 2002.

3.

Geller N. Advances in Clinical Trial Biostatistics. New York, Marcel Dekker, 2004.

4.

Kirkwood B, Sterne J. Essential Medical Statistics. Oxford, Blackwell Science, 2003.

5.

Lilienfeld AM, Lilienfeld DE: Foundations of Epidemiology, ed 3. New York, Oxford University Press, 1994.

6.

Marković O, Janošević S, Marković N, Dotlić R, Erić-Marinković J, Rakić Lj. Medicinska statistika. Beograd, 1998.

7.

Matthews D, Farewell V. Using and Understanding Medical Statistics, ed 4. Basel, Karger, 2007.

8.

McNeil D: Epidemiological Research Methods. New York, Wiley, 1996.

9.

Pirc B, Milat D. Osnove istraživanja u zdravstvu. Zagreb, 1975.

10. Sackett

DL, Haynes RB, Guyatt GH, Tugwell P: Clinical Epidemiology: A Basic Science for Clinical Medicine, ed 2. London, Little, Brown, 1991.

11. Stanišic V. Osnovne statističke metode za medicinare. Niš, 1995. 12. Stanišić

V, Rančić V. Praktikum i repetitorijum statističke metodologije za medicinare sa zadacima za vežbanje. Niš, 1996.

13. Weiss NS: Clinical Epidemiology: The Study of the Outcome of

Illness, ed 2. New York, Oxford University Press, 1996. 14. Whitehead J: The Design and Analysis of Sequential Clinical Trials, ed

2. New York, Horwood, 1991.

170

Sadržaj

1. MEDICINSKA STATISTIKA......................................................................... 5  1.1. Definicija i predmet proučavanja .............................................................. 5  1.2. Razlike u proučavanju žive i nežive prirode ............................................. 6  1.3. Teorija verovatnoće i zakon velikih brojeva ............................................. 6  1.3.1. Verovatnoća a priori........................................................................... 8  1.3.2. Verovatnoća a posteriori .................................................................... 8  1.3.3. Puasonov zakon velikih brojeva......................................................... 9  2. STATISTIČKO SREĐIVANJE I PRIKAZIVANJE PODATAKA .............. 10  2.1. Tipovi podataka....................................................................................... 10  2.2. Merne skale ............................................................................................. 11  2.3. Metode prikupljanja podataka................................................................. 12  2.4. Metode sređivanja podataka.................................................................... 13  2.5. Prikazivanje podataka ............................................................................. 16  2.5.1. Tabelarno prikazivanje podataka ..................................................... 16  2.5.2. Grafičko prikazivanje podataka ....................................................... 17  2.6. Primenjena statistika u MS Excelu.......................................................... 20  3. RELATIVNI BROJEVI ................................................................................. 26  3.1. Indeksi strukture...................................................................................... 26  3.2. Koeficijenti intenziteta ............................................................................ 28  3.3. Indeksi dinamike ..................................................................................... 30  4. MERE CENTRALNE TENDENCIJE – SREDNJE VREDNOSTI .............. 33  4.1. Aritmetička sredina – prosek................................................................... 33  4.2. Medijana.................................................................................................. 38  4.3. Modus...................................................................................................... 40  4.4. Međusobni odnos mera centralne tendencije .......................................... 41  4.5. Mere centralne tendencije - izračunavanje u MS Excelu........................ 42  5. MERE VARIJABILNOSTI – DISPERZIJE.................................................. 44  5.1. Apsolutne mere disperzije....................................................................... 45  5.1.1. Interval varijacije – rang (opseg) vrednosti...................................... 45  5.1.2. Interkvartilna razlika ........................................................................ 45  5.1.3. Varijansa i standardna devijacija...................................................... 47  5.2. Relativne mere disperzije ........................................................................ 50  5.2.1. Koeficijent varijacije ........................................................................ 50  5.2.2. Standardizovano odstupanje............................................................. 51  5.3. Mere varijabiliteta - izračunavanje u MS Excelu.................................... 52  6. TEORIJSKE RASPODELE VEROVATNOĆA ........................................... 59  6.1. Binomna distribucija verovatnoće........................................................... 60  6.2. Puasonova distribucija............................................................................. 61  6.3. Normalna distribucija.............................................................................. 62  6.4. Standardizivana normalna distribucija .................................................... 65  6.5. t - distribucija .......................................................................................... 69 

6.6. Hi kvadrat (χ2) distribucija ..................................................................... 70  6.7. F distribucija............................................................................................ 72  7. TESTIRANJE HIPOTEZA I PROCENA PARAMETARA POPULACIJE NA OSNOVU UZORKA................................................................................... 73  7.1. Uzorak ..................................................................................................... 74  7.1.1. Jednostavan slučajan uzorak ............................................................ 75  7.1.2. Sistematski uzorak............................................................................ 75  7.1.3. Višestepeni uzorak ........................................................................... 75  7.1.4. Stratifikovani uzorak ........................................................................ 76  7.1.5. Višefazni uzorak............................................................................... 76  7.1.6. Klaster uzorak .................................................................................. 77  7.2. Distribucija aritmetičkih sredina jednakih uzoraka................................. 77  7.3. Standardna greška aritmetičke sredine.................................................... 78  7.4. Distribucija proporcija jednakih uzoraka ................................................ 79  7.5. Interval pouzdanosti ................................................................................ 79  7.5.1. Interval pouzdanosti (poverenja) za aritmetičku sredinu ................. 79  7.5.2. Interval pouzdanosti za proporciju................................................... 80  7.5.3. Procena skjunisa i kurtozisa populacije na osnovu uzorka .............. 80  7.6. Polazne osnove za izračunavanje veličine uzorka................................... 83  7.6.1. Određivanje najvažnijih obeležja ispitivanja ................................... 83  7.6.2. Kontrola greške procene................................................................... 83  7.6.3. Određivanje varijabilnosti ispitivanih obeležja................................ 85  7.6.4. Obuhvat uzorka istraživanjem.......................................................... 86  7.7. Određivanje adekvatne veličine uzorka .................................................. 87  7.7.1. Aritmetička sredina ili proporcija osnovnog skupa.......................... 87  7.7.2. Procena razlike između dve srednje vrednosti ................................. 88  7.7.3. Procena razlike između dve proporcije ............................................ 89  7.7.4. Poređenje više od dve grupe ispitanika ............................................ 90  7.7.5. Zavisni uzorci................................................................................... 91  7.7.6. Korelaciona i regresiona analiza ...................................................... 92  7.7.7. Analiza vremena do nastanka događaja (analiza preživljavanja)..... 92  7.7.8. Korišćenje nomograma .................................................................... 93  7.7.9. Internet kalkulatori ........................................................................... 95  8. OSNOVE KORIŠĆENJA PROGRAMSKOG PAKETA SPSS.................... 97  9. STUDENTOV T-TEST................................................................................ 102  9.1. t-test razlike između aritmetičkih sredina osnovnog skupa i uzorka .... 104  9.2. t-test razlike između aritmetičkih sredina dva velika nezavisna uzorka 108  9.3. t-test razlike između aritmetičkih sredina dva velika zavisna uzorka... 111  9.4. t-test razlike između aritmetičkih sredina dva mala nezavisna uzorka . 112  9.5. t-test razlike između aritmetičkih sredina dva mala zavisna uzorka ..... 114  9.6. t-test proporcije ..................................................................................... 118  10. NEPARAMETRIJSKI TESTOVI.............................................................. 121  10.1. Hi kvadrat (2) test .............................................................................. 121  10.1.1. χ2 test rasporeda frekvencija (test slaganja) ................................ 122 

10.1.2. χ2 test nezavisnosti ...................................................................... 125  10.1.3. 2 test homogenosti ...................................................................... 130  10.2. Mantel - Haenzel-ov 2 test................................................................. 132  10.3. Fisher-ov test tačne verovatnoće ......................................................... 132  10.4. Mc Nemar-ov test................................................................................ 133  10.5. Aditivno dejstvo 2 testa..................................................................... 136  11. REGRESIONA I KORELACIONA ANALIZA........................................ 140  11.1. Regresiona analiza............................................................................... 140  11.2. Korelaciona analiza ............................................................................. 145  11.3. Spearman-ov koeficijent rang korelacije............................................. 150  12. JEDNOSTRANA ANALIZA VARIJANSE – ONE WAY ANOVA ...... 155  PRILOG ........................................................................................................... 162  LITERATURA................................................................................................. 170 

Related Documents


More Documents from "Radcliffe 15"