Ekonometrija K1

  • Uploaded by: Kristina Noëlle Tijan
  • 0
  • 0
  • January 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Ekonometrija K1 as PDF for free.

More details

  • Words: 38,188
  • Pages: 120
Loading documents preview...
PRIMIJENJENA EKONOMETRIJA NASTAVNI MATERIJALI ZA 1. KOLOKVIJ

SADRŽAJ PREDGOVOR ...................................................................................................................................... 1 1.

POGLAVLJE.......................................................................................................................... 2

OPĆENITO O EKONOMETRIJI .................................................................................................. 2 1.1. POVIJEST RAZVOJA I DEFINICIJA EKONOMETRIJE ...................................................... 2 1.2. POVEZANOST EKONOMETRIJE I SRODNIH ZNANSTVENIH GRANA .................... 3 2.

POGLAVLJE.......................................................................................................................... 4

METODOLOGIJA EKONOMETRIJSKOG ISTRAŽIVANJA ............................................ 4 2.1. CILJEVI I TIJEK EKONOMETRIJSKOG ISTRAŽIVANJA .................................................. 7 2. 2. EKONOMETRIJSKI MODELI ................................................................................................ 8 3.

POGLAVLJE........................................................................................................................ 14

REGRESIJSKA ANALIZA -TEMELJNI POJMOVI - .......................................................... 14 4.

POGLAVLJE........................................................................................................................ 19

REGRESIJSKI MODEL S DVIJE VARIJABLE - TEMELJNI POJMOVI- ................... 19 4.1. ODNOS IZMEĐU VARIJABLI .............................................................................................. 19 4.2. JEDNOSTAVNI LINEARNI REGRESIJSKI MODEL ......................................................... 22 4.3. POSEBNOST ZNAČENJA TERMINA «LINEARNA» REGRESIJA................................. 22 ZADACI ZA VJEŽBU .................................................................................................................... 24 RJEŠENJA ZADATAKA ................................................................................................................ 25 4.4. REGRESIJSKA FUNKCIJA POPULACIJE I REGRESIJSKA FUNKCIJA UZORKA ...... 26 4.4.1. REGRESIJSKA FUNKCIJA POPULACIJE .................................................................... 27 4.4.2. REGRESIJSKA FUNKCIJA UZORKA ........................................................................... 30 5. POGLAVLJE.............................................................................................................................. 33 OCJENJIVANJE PARAMETARA REGRESIJE ................................................................. 33 ZADACI ZA VJEŽBU ........................................................................................................................ 39 RJEŠENJA ZADATAKA .................................................................................................................... 39 6. POGLAVLJE.............................................................................................................................. 40 KLASIČNI LINEARNI REGRESIJSKI MODEL................................................................... 40 6.1. VARIJANCA I STANDARDNA GREŠKA OLS PROCJENITELJA.................................. 43 6.2. SVOJSTVA OLS PROCJENITELJA ...................................................................................... 45 6.3. DISTRIBUCIJA VJEROJATNOSTI OLS PROCJENITELJA ............................................... 46

I

7. POGLAVLJE............................................................................................................................... 49 TESTIRANJE HIPOTEZA U MODELU JEDNOSTAVNE LINEARNE REGRESIJE ............................................................................................................................................................... 49 ZADACI ZA VJEŽBU ........................................................................................................................ 54 RJEŠENJA ZADATAKA .................................................................................................................... 55 8.

POGLAVLJE........................................................................................................................ 56

MJERENJE POUZDANOSTI REGRESIJSKOG MODELA............................................ 56 8.1. RASTAVLJANJE VARIJACIJA ZAVISNE VARIJABLE .................................................... 57 8.2. UTVRĐIVANJE VALJANOSTI REGRESIJE POMOĆU KOEFICIJENTA DETERMINACIJE .......................................................................................................................... 58 8.3. STANDARDNA GREŠKA REGRESIJE ................................................................................ 60 8.4. TESTIRANJE STATISTIČKE ZNAČAJNOSTI REGRESIJSKOG MODELA ................. 61 8.5. PREDOČAVANJE REZULTATA REGRESIJSKE ANALIZE ............................................ 63 ZADACI ZA VJEŽBU ........................................................................................................................ 65 RJEŠENJA ZADATAKA .................................................................................................................... 66 9.

POGLAVLJE........................................................................................................................ 67

VIŠESTRUKI LINEARNI REGRESIJSKI MODEL ............................................................. 67 9. 1. LINEARNI REGRESIJSKI MODEL S TRI VARIJABLE..................................................... 67 9. 2. PRETPOSTAVKE VIŠESTRUKOG LINEARNOG REGRESIJSKOG MODELA............ 68 9.3. OCJENA PARAMETARA VIŠESTRUKE REGRESIJE ....................................................... 69 9.3.1. OLS PROCJENITELJI ....................................................................................................... 69 9.3.2. VARIJANCA I STANDARDNA POGREŠKA OLS PROCJENITELJA ..................... 71 9.4. KOEFICIJENT VIŠESTRUKE DETERMINACIJE R2 .......................................................... 72 9.5. TESTIRANJE HIPOTEZA U MODELU VIŠESTRUKE LINEARNE REGRESIJE........... 75 ZADACI ZA VJEŽBU ........................................................................................................................ 80 RJEŠENJA ZADATAKA .................................................................................................................... 82 10.

POGLAVLJE........................................................................................................................ 83

OCJENJIVANJE U UVJETIMA NEISPUNJENIH PRETPOSTAVKI KLASIČNOG MODELA ........................................................................................................................................... 83 10.1. MULTIKOLINEARNOST .................................................................................................... 83 10.2. AUTOKORELACIJA ............................................................................................................. 89 10.3. HETEROSKEDASTIČNOST ................................................................................................ 98 10.4. NORMALNOST GREŠAKA RELACIJE........................................................................... 106 ZADACI ZA VJEŽBU ...................................................................................................................... 108 RJEŠENJA ZADATAKA .................................................................................................................. 109

II

STATISTIČKE TABLICE LITERATURA

III

PRIMIJENJENA EKONOMETRIJA

Predgovor

PREDGOVOR Nastavni tekst „Primijenjena ekonometrija“, nastao je kao rezultat objedinjavanja materijala korištenoga u višegodišnjem radu sa studentima, na predavanjima, seminarima i vježbama iz predmeta Primijenjena ekonometrija koji se izvodi kao temeljni predmet na prvoj godini diplomskog studija Fakulteta za menadžment u turizmu i ugostiteljstvu Opatija, Sveučilišta u Rijeci. Materijal je namijenjen isključivo polaznicima predmeta, te predstavlja osnovnu literaturu i integralni nastavni materijal za savladavanje teorijskoga i praktičnoga dijela predmeta. Cjelokupni je tekst podijeljen u četiri osnovna dijela, a svojim sadržajem, kroz šesnaest logički strukturiranih poglavlja, u cijelosti pokriva predviđeni sadržaj spomenutoga predmeta. U tekstu nisu navedeni svi citati i izvori, već je na kraju materijala dan detaljan popis izvora korištenih prilikom sastavljanja ovoga rada. Napominje se da su svi primjeri i zadaci u potpunosti preuzeti iz izvora danih na kraju materijala. Neki su od zadataka i primjera pojednostavljeni, preformulirani ili prerađeni. Onima koji žele detaljnije proučiti sadržaj i steći dublji uvid u obrađenu materiju ostavljena je mogućnost istraživanja koristeći se popisom literature, kao i pretraživanjem dodatnih izvora koja pokrivaju autoriziranim predavanjima istraživanu materiju. Svjesne činjenice, da je djelo nepotpuno te da, sadržajem nisu obuhvaćena sva relevantna područja primijenjene ekonometrije, vjerujemo da će ovaj materijal, poslužiti studentima kao temelj za daljnja istraživanja. Iako je u pisanje i uređivanje teksta te sakupljanje podataka i materijala uloženo mnogo truda i vremena, autorice će biti zahvalne svima onima koji će ukazati na eventualne pogreške i propuste koji su se uvukli u tekst. I na kraju ovim putem želimo zahvaliti svim onima koji su mi pružili nesebičnu pomoć prilikom pisanja ovoga materijala. Posebnu zahvalu dugujemo Stručnom povjerenstvu dr. sc. Maji Biljan-August, redovitoj profesorici, dr.sc. Dori Smolčić Jurdana, redovitoj profesorici te dr. sc. Slobodanu Ivanoviću, redovitom profesoru, na njihovim korisnim savjetima, idejama, uputama i sugestijama. Autorice Opatija, listopad 2015.

1

I. DIO UVODNO O EKONOMETRIJI

I. DIO UVODNO O EKONOMETRIJI

1. Poglavlje: Općenito o ekonometriji

1. POGLAVLJE OPĆENITO O EKONOMETRIJI

E  

konomisti primjenjuju saznanja ekonomske teorije za objašnjavanje i dobivanje kvalitativnih informacija i odgovora tipa: Hoće li profit rasti ili padati ako proizvodnja raste? Hoće li prihodi rasti ili padati ako se cijena smanji?

No menadžerima su jednako važne i kvantitativne informacije:  Koliko će biti rast odnosno pad….? Odgovore na ovakva i slična pitanja daje ekonometrija. Ekonometrijske tehnike obično se koriste i razvijaju za davanje odgovora na praktične probleme. Kao što je razvidno iz prvih pet slova riječi ekonometrija ti su problemi obično ekonomskog karaktera, iako se često ekonometrijske tehnike koriste i u ne ekonomskim istraživanjima. Ekonometrija je multidisciplinarna znanost koja izučava kvantitativne odnose definirane u ekonomskoj teoriji, kao i procese koji generiraju njihove varijable, a sve uz uporabu matematičkog i statističkog instrumentarija. 1.1. POVIJEST RAZVOJA I DEFINICIJA EKONOMETRIJE Ekonometrija kao znanstvena grana intenzivnije se počinje razvijati 30-ih godina prošlog stoljeća, a radi utvrđivanja kvantitativnih odnosa između ekonomskih procesa i njihovih varijabli pomoću matematičkih i statističkih metoda. Iako su ekonomisti 17. i 18. stoljeća pokušavali mjeriti ekonomske varijable i primijeniti matematičke metode u ekonomiji, nije bilo značajnijeg napretka sve do prve polovice prošlog stoljeća, iako primjena statističkih metoda na ekonomske procese ima dužu povijest. Prva je empirijska studija objavljena već 1699. godine od Charla Devenanta, dok je prvu modernu statističku studiju potražnje proveo Rodolfo Enini, talijanski statističar 1907. godine. Glavni razvojni impuls ekonometriji došao je s osnivanjem Ekonometrijskog društva pod vodstvom Schumpetera u Clevelandu (SAD) 1930. godine i izdavanjem časopisa «Econometrica» u siječnju 1933. godine. Taj je časopis i danas relevantan izvor informacija o razvojnim dostignućima na području ekonometrije. Etimološki, izraz ekonometrija ili «mjerenje u ekonomiji» nastaje od dvije grčke riječi oikonomia (ekonomija) i metron (mjerenje). Sam naziv ekonometrija uveo je u ekonomsku literaturu Ragnar Frisch, norveški ekonomist i statističar, kasnije dobitnik prve Nobelove nagrade za ekonomske znanosti. Ekonometrija je grana ekonomske znanosti koja povezuje ekonomsku teoriju, matematičku ekonomiju i metode statističke analize, a bavi se razvijanjem i usavršavanjem metoda i modela za kvantitativnu analizu gospodarske strukture, s ciljem da se ustanove zakonitosti gospodarskih procesa, te da se omogući predviđanje, planiranje i usmjeravanje gospodarskih tijekova. Općenito, da bi bilo koja teorijska tvrdnja u ekonomiji mogla biti dokazana, potrebno je koristiti ekonometrijske metode. Ekonometrija se zasniva na prilagođavanju matematičkih i statističkih metoda potrebama zaključivanja u ekonomiji, kroz proces modeliranja osnovnih ekonomskih međuzavisnosti. Ekonomska teorija može se prikazati kao skup odnosa između ekonomskih varijabli (Samuelson, 1947). Ekonometrija upravo te odnose matematički formulira i kvantificira na bazi empirijskih mjerenja ekonomskih pojava.

2

I. DIO UVODNO O EKONOMETRIJI

1. Poglavlje: Općenito o ekonometriji

Prema Theilu (1971.) ekonometrija se bavi empirijskim utvrđivanjem ekonomskih zakonitosti. U ekonometriji se kvantificiraju odnosi između ekonomskih varijabli pomoću matematičkih i statističkih metoda. U uvodnom članku prvog broja časopisa «Econometrica», poznati ekonomista Schumpeter daje slijedeću definiciju ekonometrije: «Ekonometrija je primjena specifičnih metoda u području ekonomskih znanosti u nastojanju da se postignu numerički rezultati i verificiraju ekonomski teoremi.» Ekonometrija analizira ekonomske procese, njihove strukture i kretanja, a ta se analiza temelji na statističkim podacima i instrumentariju, koji su racionalno koordinirani u ekonometrijskom modelu. 1.2. POVEZANOST EKONOMETRIJE I SRODNIH ZNANSTVENIH GRANA Ekonometrija predstavlja znanstvenu disciplinu koja ima za cilj matematički formulirati i utvrditi kvantitativne veze koje postoje između ekonomskih varijabli, a temeljem ekonomske teorije i informacija o tim varijablama sakupljenih pomoću statističkih metoda. Prema tome, ekonometrija je jedna od grana ekonomske znanosti koja, na specifičan način, sintetizira matematiku, ekonomsku teoriju, statističke metode i empirijsko opažanje. Ekonometrija zapravo verificira koliko je ekonomska teorija konzistentna s empirijskim opažanjima, omogućuje dublje pronicanje u suštinu stvarnih ekonomskih pojava i procesa, a ocijenjene ekonometrijske veze i modeli mogu poslužiti za utvrđivanje ekonomskih parametara potrebnih za vođenje ekonomske politike, donošenje odluka te predviđanje kretanja ekonomskih varijabli. Ekonometrija dakle, nastaje svojevrsnom integracijom ekonomske teorije, matematike i statistike i to na način da ekonomske postavke verificira kroz empirijska istraživanja. Ekonometrija tako povezuje tri znanstvene discipline i to matematičku ekonomiju, ekonomsku statistiku te matematičku statistiku. Slika 1: Povezanost ekonometrije i srodnih znanstvenih grana

Matematička ekonomija formulira zaključke ekonomske teorije matematičkim simbolima, jezikom i sustavom notiranja i koristi matematičke metode da izvede veze ekonomskih zakonitosti, ali u determinističkom obliku i ne daje numeričke vrijednosti parametrima specificiranih veza. Ekonomska statistika se bavi prikupljanjem, obrađivanjem i predstavljanjem empirijskih ekonomskih podataka. Matematička statistika ocjenjuje, uz pomoć svojih metoda, a na osnovi empirijskih podataka, parametre ekonomskih veza. S obzirom da ekonomske veze karakterizira stohastičnost, a matematička statistika se bavi podacima koji su rezultat kontroliranih eksperimenata potrebne su prilagodbe. Takve prilagodbe statističkih metoda zovu se ekonometrijske metode.

3

I. DIO UVODNO O EKONOMETRIJI

2.

Poglavlje: Metodologija ekonometrijskog istraživanja

2. POGLAVLJE

METODOLOGIJA EKONOMETRIJSKOG ISTRAŽIVANJA to je to ekonometrijsko istraživanje i kako se konstruira ekonometrijski model? Odgovori na ta pitanja iznalaze se u metodologiji ekonometrijskog istraživanja.

Š

U svakom ekonometrijskom istraživanju metodološki razlikuje se nekoliko koraka:        

postavljanje hipoteze prikupljanje podataka specifikacija matematičkog modela specifikacija statističkog ili ekonometrijskog modela procjena parametara ekonometrijskog modela ispitivanje pouzdanosti ekonometrijskog modela testiranje hipoteze te upotreba modela.

POSTAVLJANJE HIPOTEZE

Svodi se na proučavanje teorijskih ekonomskih postavki u svrhu definiranja praktičnog problema na koji se traži odgovor, odnosno postavljanja hipoteze. Da bi ekonometrijski model, kao rezultat ekonometrijskog istraživanja, mogao dati odgovor na postavljeni problem, odnosno vjerodostojne rezultate, problem mora biti jasno postavljen. Uspješnost svih daljnjih koraka zavisi od jasnoće postavljenog problema, odnosno od valjanosti postavljene hipoteze. Hipoteza se formulira temeljem poznavanja analizirane pojave, rezultata ranijih istraživanja te svakako temeljem poznavanje ekonomske teorije. Postavljanje znanstvenih hipoteza s ciljem specifikacije ekonometrijskog modela podrazumijeva prethodno znanje o varijablama koje je potrebno uključiti u model, o matematičkom obliku njihovih međuzavisnosti i izvjesna znanja o predznaku i intervalima mogućih vrijednosti parametara modela. PRIKUPLJANJE PODATAKA

Ekonometričari u svojim istraživanjima obično koriste podatke, sakupljene, sistematizirane i objavljene u statističkim publikacijama. Jasno je da kvaliteta i dostupnost podataka određuju kvalitetu i uspješnost samog ekonometrijskog istraživanja. SPECIFIKACIJA MATEMATIČKOG MODELA

Nakon postavljanja hipoteze i prikupljanja podataka prelazi se na specifikaciju matematičkog modela. Radi se o matematičkoj formulaciji postavljene hipoteze, odnosno kvantitativnog izražavanja odnosa koji iz hipoteze proizlazi. Ova faza podrazumijeva poznavanje matematičkog jezika, instrumentarija i načina notiranja, kao i ponašanja uključenih varijabli te predznaka i veličine parametara modela. Specifikacija modela podrazumijeva matematičku formulaciju postavljenih znanstvenih hipoteza, koje se određuju na osnovi poznavanja djelovanja i ponašanja ispitivane pojave u ekonomskoj stvarnosti, na temelju rezultata ranijih istraživanja dane pojave i, što je osobito važno, temeljem spoznaja ekonomske teorije o njoj. Prva slika o međuzavisnosti dohotka i osobne potrošnje dobiva se crtanjem dijagrama rasipanja.

4

I. DIO UVODNO O EKONOMETRIJI

2.

Poglavlje: Metodologija ekonometrijskog istraživanja

SPECIFIKACIJA EKONOMETRIJSKOG MODELA

Specificiranje ekonometrijskog modela pretpostavlja dobro poznavanje ekonomske teorije. Na toj osnovi istraživač odlučuje koje varijable uključiti u model, ima a priori teorijska očekivanja o predznaku i veličini parametara, te odlučuje o matematičkom obliku modela. Pogreška u navedenom postupku naziva se specifikacijska pogreška. To je najteža pogreška koja se može dogoditi u ekonometrijskom istraživanju, jer ostavlja najteže posljedice na ocjeni modela. Najčešće greške specifikacije su izostavljanje nekih varijabli iz funkcije ili upotreba neodgovarajućeg matematičkog oblika modela. Ako nije postignuta zadovoljavajuća specifikacija modela, ocjene parametara dobivene bilo kojom ekonometrijskom tehnikom biti će netočne, nepotpune ili neupotrebljive. PROCJENA PARAMETARA EKONOMETRIJSKOG MODELA

Nakon specifikacije ekonometrijskog modela prelazi se na njegovo ocjenjivanje. Ocjenjivanje modela predstavlja tehničku fazu u dobivanju rezultata a obuhvaća:  ispitivanje problema agregiranja i sličnih problema u svezi s varijablama uključenim u model,  ispitivanje uvjeta identifikacije funkcija korištenih u modelu,  ispitivanje jakosti međusobne korelacije varijabli korištenih u modelu, odnosno razine multikolinearnosti,  ispitivanje vezano uz zadovoljenje uvjeta stohastičnosti slučajnih varijabli te  odabir i primjenu ekonometrijskih metoda i tehnika za ocjenu modela. Agregiranjem se jednom vrijednošću predstavljaju ekonomske veličine kvalitativno različitih objekata. Pojednostavljenja u agregiranju mogu rezultirati agregacijskom pristranošću kod ocjene parametara modela. Identifikacija funkcija modela postupak je kojim se provjerava da li svaka funkcija ima svoje jasno značenje, u smislu veza i odnosa postavljenih teorijom. Identifikacija je problem vezan za ocjenjivanje modela simultanih jednadžbi. Ispitivanje jakosti međusobne korelacije varijabli korištenih u modelu, te uvjeta stohastičnosti slučajnih varijabli od presudne je važnosti, jer neispunjenost tih osnovnih pretpostavki rezultira pogrešnim ocjenama modela. Koja će se ekonometrijska metoda koristiti u svakom posebnom slučaju zavisi od više čimbenika. Na taj izbor utječe najprije priroda razmatrane pojave i uvjeti njene identifikacije. Naime, ako se ispituje jednostavna pojava koje se može zadovoljavajuće prikazati modelom jedne jednadžbe, najčešće se koristi klasična metoda najmanjih kvadrata. U protivnome se koriste metode koje se primjenjuju na modele simultanih jednadžbi. Uobičajeno je da se koristi ona metoda koja daje ocjene sa što više takozvanih poželjnih karakteristika, a koja je od poželjnih karakteristika ocjena i najvažnija, zavisi od cilja ekonometrijskog istraživanja. Postoji više dijagnostičkih mjera (testova). Dvije su osnovne skupine testova koji se koriste. Prva skupina testova daje opću sliku o tome da li je model dobro specificiran ili ne. To su tzv. test portmanteau ili testovi specifikacije modela. Zaključci koji proizlaze iz ovih testova jesu da je model adekvatan za opisivanje podataka ili, naprotiv tvrde sa određenim stupnjem signifikantnosti da model nije dobro specificiran. Druga skupina testova odnosi se na osobine slučajne pogreške koje možda govore u kojem smjeru mijenjati model. Primjeri ove vrste testova jesu testovi normalnosti procijenjenih grešaka, testovi linearnosti veze između y i xi, testovi korelacije reziduala, itd. ISPITIVANJE POUZDANOSTI EKONOMETRIJSKOG MODELA

Dobivene vrijednosti parametara potrebno je testirati. Procjena parametara ili vrednovanje ocjena parametara, sa ekonometrijskog stajališta i statističke pouzdanosti, vrši se temeljem tri skupine kriterija i to ekonomskih, statističkih te ekonometrijskih.

5

I. DIO UVODNO O EKONOMETRIJI

2.

Poglavlje: Metodologija ekonometrijskog istraživanja

Ekonomski (a priori) kriteriji odnose se na veličinu i predznak parametara te zastupljenost objasnidbenih varijabli u modelu. Parametri u ekonomskim modelima predstavljaju elastičnosti, granične vrijednosti, multiplikatore i slično, a za koje ekonomska teorija definira predznak, a katkada i veličinu. Budući da ekonometrija pretpostavlja postojanje definiranih međuzavisnosti ekonomskih veličina danih ekonomskom teorijom, može se reći da ekonomska teorija prethodi ekonometrijskom zaključivanju. Stoga, ako se kao rezultat primjene modela na raspoloživa opažanja dobije pogrešan predznak ili veličina nekog parametra, takva se ocjena smatra nezadovoljavajućom. Statistički kriteriji (testovi prvoga reda) evaluacije statističke signifikantnosti ocjena parametara najčešće su koeficijent determinacije i standardne greške ocjene parametara. Koeficijent determinacije predstavlja postotak varijacija zavisne varijable oko njezine srednje vrijednosti, koji je objašnjen varijacijama nezavisnih varijabli. Stoga, koeficijent determinacije predstavlja indikator relevantnosti uključenih čimbenika i valjanosti modela kao ocjene. Standardne greške ocjena parametara predstavljaju mjeru disperzije ocjena pravih vrijednosti parametara, te služe za vrednovanje pouzdanosti ocjena pojedinih parametara. Statistički kriteriji su uvijek u strogoj zavisnosti od ekonomskih kriterija, jer čak i kada su statistički zadovoljavajuće, ocjene parametara se odbacuju ako nemaju smisla sa aspekta apriornih ekonomsko-teorijskih postavki. Ekonometrijski kriteriji (testovi drugoga reda) određuju pouzdanost statističkih kriterija. Pomoću njih se utvrđuje da li ocjene parametara imaju svoje poželjne osobine (nepristranost, konzistentnost, efikasnost). Potpuno ekonometrijsko istraživanje uvijek obuhvaća i ove sekundarne ekonometrijske testove. Ako pretpostavke primijenjene ekonometrijske metode nisu zadovoljavajuće, onda ocjene parametara nemaju poželjne osobine ili statistički kriteriji gube svoju vrijednost te postaju nepouzdani u određivanju statističke signifikantnosti dobivenih ocjena. TESTIRANJE HIPOTEZE EKONOMETRIJSKOG MODELA

Nakon specifikacije i vrednovanja modela prelazi se na testiranje hipoteze. Testiranje hipoteze predstavlja način provjeravanja o tome ima li postavljeni model ekonomskog smisla i da li će dobiveni rezultati biti sukladni s ekonomskom teorijom. PREDVIĐANJE I PROGNOZIRANJE

Ocjena valjanosti modela sa aspekta njegove moći predviđanja podrazumijeva ispitivanje stabilnosti ocjene parametara u modelu, odnosno njihove osjetljivosti na promjenu veličine uzorka. To ispitivanje treba odgovoriti na pitanje da li ocjena veza adekvatno predstavlja odnose u stvarnosti i izvan uzorka čiju prosječnu varijaciju predstavlja. Čak i kada model zadovoljava ekonomske, statističke i ekonometrijske kriterije vrednovanja ocjena, moguće je da ima slabu moć predviđanja. Takvi modeli mogu se koristiti u svrhe analize postojeće ekonomske strukture, ali ne i za predviđanja, najčešće zato što su statični. Da bi model uspješno mogao predstaviti promjenu strukturnih parametara, mora odražavati i dinamičnost promatrane pojave. Ekonometrijski model može koristiti za predviđanje budućih vrijednosti zavisne varijable na osnovi očekivanih budućih vrijednosti eksplanatornih varijabli. Model može također poslužiti u ekonomskoj analizi te za kontrolu i donošenje ekonomskih odluka i mjera.

6

I. DIO UVODNO O EKONOMETRIJI

2.

Poglavlje: Metodologija ekonometrijskog istraživanja

2.1. CILJEVI I TIJEK EKONOMETRIJSKOG ISTRAŽIVANJA Polazeći od definicije ekonometrije, moguće je definirati i cilj ekonometrijskog istraživanja, koji nije tek sakupljanje činjenica o određenim pojavama, već i njihovo objašnjenje te predviđanje njihova kretanja u budućnosti. A u suvremenim turbulentnim i promjenama podložnim ekonomskim procesima raste i potreba za kvantitativnim i preciznim izražavanjem ekonomskih pojava. Moguće je istaći 3 osnovna cilja ekonometrije: 1. Testiranje ekonomske teorije svodi se na proučavanje ekonomske teorije radi boljeg razumijevanja i objašnjavanja ekonomskih pojava i aktivnosti. U modernoj ekonomiji niti jedna teorija, i pored svoje uvjerljivosti i konzistentnosti, ne može se prihvatiti bez empirijskog testiranja. 2. Pomoć ekonomskoj politici očituje se u dobivanju numeričkih ocjena koeficijenata ekonomskih odnosa koje se mogu koristiti prilikom donošenja odluka. 3. Predviđanje se odnosi na korištenje numeričkih ocjena koeficijenata kako bi se predvidjele buduće vrijednosti ekonomskih veličina. Predviđanje pretpostavlja mogućnost definiranja stanja sustava (u smislu znanja vrijednosti određenih promjenjivih veličina) i postojanje dinamičke teorije pomoću koje se buduće stanje sustava izvodi logičkim implikacijama iz poznavanja sadašnjeg stanja. Navedeni se ciljevi međusobno ne isključuju. Uspješno ekonometrijsko istraživanje trebalo bi uključiti optimalnu kombinaciju sva tri navedena cilja. U tom se smislu ciljevi ekonometrijskog istraživanja mogu shvatiti i kao zadaci ekonometrijskog istraživanja, a oni su:  formuliranje ekonometrijskog modela,  procjenjivanje i testiranje modela te  upotreba modela za prognoziranje i predviđanje. Složenost ekonometrijskih zadataka i ciljeva uvjetovala je i njen razvoj u više pravaca, razlikuju se stoga, dvije osnovne grane ekonometrije:  

teorijska ekonometrija koja se bavi razvojem i unapređenjem metoda za kvantificiranje ekonomskih odnosa, te primijenjena ekonometrija koja koristi ekonometrijski instrumentarij i posebne grane ekonomske teorije, a uključuje sredstva i rezultate teorijske ekonometrije.

Svako ekonometrijsko istraživanje odvija se u nekoliko koraka. Slika 2: Tijek ekonometrijskog istraživanja

Ekonomska teorija razmatra ekonomske odnose i oblikuje postulate i tvrdnje. Polazeći od neke teorije koje je potrebno testirati, uz pomoć matematičkog izražavanja te teorije (matematička

7

I. DIO UVODNO O EKONOMETRIJI

2.

Poglavlje: Metodologija ekonometrijskog istraživanja

ekonomija) postavlja se model ili hipoteza koja se testira. Koristeći podatke ekonomske statistike, model se uspoređuje s tim podacima. Ocjenjivanje modela vrši se ekonometrijskim metodama, dobivenim prilagođavanjem metodama matematičke statistike ekonomskim fenomenima. Temeljem dobivenih rezultata, testira se polazna hipoteza. Teorija se prihvaća ako je kompatibilna sa podacima, u protivnom ista se odbacuje. U tom je slučaju moguće i revidiranje teorije. Dobiveni numerički rezultati mogu se koristiti za predviđanja ili donošenje ekonomskih odluka. 2. 2. EKONOMETRIJSKI MODELI DETERMINISTIČKI I STOHASTIČKI MODELI

U prirodnim znanostima ponašanje analiziranog sustava opisuje se determinističkim (matematičkim) modelima. Deterministički modeli pretpostavljaju da je istraživana pojava potpuno determinirana određenim uzročnim vezama. U društvenim znanostima mora se uvažiti stohastičko ponašanje, budući da se vrijednosti nekih varijabli ponašaju slučajno. Stoga se istraživana pojava ne može egzaktno predvidjeti sustavom jednadžbi, već samo procijeniti. Uključivanjem članova slučajnih pogrešaka (disturbance terms) deterministički model pretvara se u stohastički model, odnosno ekonometrijski model. Ekonometrijskim modelom djelomično se nadoknađuje pomanjkanje preciznosti uslijed stohastičkog ponašanja varijabli i pojednostavljenja empirijskih veza. Matematička ekonomija izražava ekonomske odnose i strukture u egzaktnom (determinističkom) obliku, tzv. obliku funkcionalne zavisnosti. Ekonomska teorija kaže koje veze tvore model, koje je varijable potrebno uključiti u svaku pojedinu vezu i koji je predznak nekih parcijalnih derivacija. No, ekonomska teorija može vrlo malo reći o funkcionalnom obliku veza, uključenim pomacima i vrijednostima parametara. Pored toga, veze su determinističke pa ne dopuštaju prisutnost stohastičkog odstupanja. Da bi se ekonomski model doveo u oblik provjerljive hipoteze, nužno je specificirati funkcionalni oblik veza, odabir vremena varijabli i stohastičku karakterizaciju odstupanja. Dobije se tako ekonometrijski model spreman za ocjenjivanje i testiranje. Pri danom stanju ekonomske znanosti to se prethodno znanje djelomično izvodi iz ekonomske teorije i djelomično iz ad hoc rasuđivanja ili procjenjivanja. EKONOMSKI MODEL

Ekonomisti se u svojim istraživanjima koriste eksperimentima ili pokusima. No budući da je stvarni svijet iznimno kompleksan, ekonomisti ne eksperimentiraju sa realnim ekonomskim sustavima, već se okreću laboratorijima i kontroliranim eksperimentima da bi proučavali ekonomske pojave. Stoga, ekonomska teorija konstruira ekonomske modele kojima, na pojednostavljeni način, prikazuje ekonomske odnose u stvarnosti. Ti su modeli idealni i takvi da omogućavaju uočavanje zakonitosti koje vladaju ekonomskim odnosima. Model se može definirati kao pojednostavljeni prikaz realnog sustava ili procesa koji se proučava. Sve definicije modela sadrže nekoliko zajedničkih elemenata (Jovičić, 1989.):    

pretpostavka da je prisutno određeno znanje empirijske prirode, pojednostavljenje kompleksne stvarnosti u razumljiv sustav fundamentalnih veza, koristeći aksiome, mogućnost postavljanja pretpostavki o konstrukciji i ponašanju analiziranih pojava, te matematičke metode predstavljanja veza i hipoteza.

Svrha modeliranja je objašnjavanje, predviđanje i kontrola proučavanih pojava (Lovrić, 2005.) te pojednostavljenje složenih realnih situacija i utvrđivanje uzročnih veza koje izgledaju

8

I. DIO UVODNO O EKONOMETRIJI

2.

Poglavlje: Metodologija ekonometrijskog istraživanja

najznačajnije za određeni problem. Temeljeći svoje zaključke o nekoj pojavi na modelu, istraživač može ispitivati logičke posljedice pretpostavki od kojih polazi, testirati postavljene hipoteze, odnosno uspoređivati ih sa opažanjima iz stvarnosti, i tako bolje upoznati stvarnost i omogućiti uspješno djelovanje i reagiranje na pojave iz stvarnosti. Neuređen skup tvrdnji o ekonomskoj stvarnosti ne može činiti ekonomsku znanost. Ekonomska znanja moraju imati određenu aksiomatsku strukturu, tako da je ograničen broj propozicija dovoljan da se ostale izvedu logičnim zaključivanjem. Takav ograničen skup propozicija, iz kojih se preostale deduciraju predstavlja ekonomski model. Ako kažemo da količina potražnje za jabukama zavisi od cijene jabuka, pojednostavljujemo stvarnost, stoga što postoji niz drugih varijabli od kojih potražnja za jabukama zavisi. Te varijable mogu biti dohodak potrošača, promjene u razmišljanju potrošača, povećanje svijesti o zdravoj prehrani, porast ili pad cijene ostalog voća itd. Propozicije koje se iz modela izvlače jesu teze. Model se smatra konzistentnim, ako dedukcijom ne rezultiraju teze koje su protivne aksiomima korištenim kod njegova sastavljanja (Jovičić, 1989.). Iz navedenoga proizlazi i definicija ekonomskog modela. Ekonomski model je (Jovičić, 1989.): formalizirana prezentacija ideja, propozicija ili znanja o specifičnom fenomenu čiji je cilj da obuhvati suštinu i način djelovanja kompleksa realnosti u lakše razumljiv sustav. Ekonomski model je stoga, skup pretpostavki koje pojednostavljeno prikazuju ponašanje određene ekonomske pojave ili procesa. Kada ekonomski model poprimi oblik matematičkih odnosa, moguće je upotrijebiti podatke o analiziranoj pojavi, te temeljem tih podataka, procijeniti valjanost modela, odnosno provjeriti da li model adekvatno predstavlja stvarnost. Empirijska provjera valjanosti ekonomskih modela predstavlja jedan od osnovnih ciljeva ekonometrijske analize. EKONOMETRIJSKI MODEL

Cilj analiziranja ekonomskih pojava, procesa, odnosa, veza i struktura te konstruiranja ekonomskih modela, je upoznavanje njihove suštine i utvrđivanja zakonitosti u njihovom ponašanju i kretanju. No, tek ekonometrijske metode omogućuju da se spomenute zakonitosti numerički izraze i statistički testiraju. Ekonometrija dakle, analizira ekonomske procese, njihove strukture i kretanja, a ta se analiza temelji na statističkim podacima i instrumentariju, koji su racionalno koordinirani u ekonometrijskom modelu. Ekonometrijski model je krajnji rezultat svakog ekonometrijskog istraživanja, predstavlja skup hipoteza koje dozvoljavaju donošenje statističkog zaključka na osnovi uočenih vrijednosti ekonomskih varijabli (Vujković, 1976.). Ekonometrijski model može se definirati kao skup relacija upotrijebljenih za reprezentiranje ekonomskih procesa koji se mogu izraziti u matematičkoj formi (Vujković, 1976.). Maddala ekonometrijski model definira kao skup jednadžbi i različitih numeričkih vrijednosti strukturnih koeficijenta koji izražavaju ekonomsku strukturu procesa (Maddala, 1992.). Ekonometrijski model mora biti dovoljno eksplicitan da omogući:   

istraživanje ekonomskih procesa, kontrolu ekonomskih procesa, te predviđanje ponašanja istraživanog procesa u različitim promjenjivim uvjetima budućnosti.

Ekonometrijski model mora biti tako konstruiran da omogući (Jovičić, 1989.):   

modeliranje ekonomskog sustava i testiranje hipoteza o njegovim parametrima prognoziranje i predviđanje analiziranje ekonomskih kretanja i simulacija mjera ekonomske politike, simulacija teorije ekonomskih ciklusa, ekonomskog rasta, itd.

9

I. DIO UVODNO O EKONOMETRIJI

2.

Poglavlje: Metodologija ekonometrijskog istraživanja

Ekonometrijski model sastoji se iz slijedećih elemenata (Maddala, 1992.): 

skupa strukturnih jednadžbi koje objašnjavaju ponašanje ekonomske varijable, a koje proizlaze iz ekonomskog modela; takve jednadžbe uključuju i «odstupanja» (koja uključuju sve one, za specifični model nevažne varijable, kao i neke nepredvidive čimbenike);  iskaza o eventualnim pogreškama u opažanjima analiziranih varijabli;  specifikacije distribucije vjerojatnosti «odstupanja». Navedeni elementi omogućuju testiranje empirijske valjanosti ekonometrijskoga modela i njegovo korištenje za predviđanja i donošenje odluka. Poželjne osobine ekonometrijskog modela su (Jovičić, 1989.):      

relevantnost, odnosno zasnovanost cilja; teorijska uvjerljivost: model treba biti usuglašen sa postulatima ekonomske teorije i adekvatno predstavljati ekonomske pojave; sposobnost razjašnjavanja: model mora objašnjavati opažanja iz stvarnosti, biti konzistentan sa opaženim ekonomskim ponašanjem; točnost ocjene parametara: ocjene trebaju na najbolji mogući način aproksimirati stvarne parametre modela, te posjedovati osobine nepristranosti, konzistentnosti i efikasnosti; mogućnost predviđanja endogenih varijabli; jednostavnost: model treba predstavljati određenu ekonomsku vezu sa najvećom mogućom jednostavnošću, da bi se lako moglo razumjeti njegovo značenje, uz uvjet da se druge željene osobine ne gube simplifikacijom modela.

KLASIFIKACIJA EKONOMETRIJSKIH MODELA

Postoji niz kriterija klasifikacije ekonometrijskih modela. S obzirom na složenosti pojave koja je predmetom izučavanja, ekonometrijski model može biti:  model jedne jednadžbe te  model sustava jednadžbi ili model sustava simultanih jednadžbi: takav se model sastoji od više linearnih ili nelinearnih jednadžbi međusobno povezanih na određeni specifičan način. S obzirom na dužinu vremenskoga razdoblja koje obuhvaćaju, ekonometrijski modeli mogu biti:  kratkoročni ekonometrijski modeli te  dugoročni ekonometrijski modeli. S obzirom na stupanj agregiranja ekonomskih varijabli te formuliranja osnovnih ekonomskih veza analizirane ekonomske pojave, ekonometrijski modeli mogu biti:  mikro ekonometrijski modeli te  makro ekonometrijski modeli. S obzirom na svrhu primjene koju model ima, ekonometrijski model može biti:  deskriptivni ekonometrijski model: takav se model konstruira sa svrhom definiranja odnosa između uzroka i posljedica temeljem kojih se mogu donijeti sudovi o funkcioniranju ekonomske pojave te  analitički ekonometrijski modeli: pokazuju kako bi se analizirana ekonomska pojava promijenila kada bi se promijenila bilo koja od njenih veza. S obzirom na metode statističke analize ekonometrijski modeli mogu biti:  linearni ekonometrijski modeli,  nelinearni ekonometrijski modeli koji se prikladnom transformacijom mogu linearizirati te

10

I. DIO UVODNO O EKONOMETRIJI



2.

Poglavlje: Metodologija ekonometrijskog istraživanja

nelinearni ekonometrijski modeli.

NOTIRANJE I STRUKTURA EKONOMETRIJSKOG MODELA

Opći oblik ekonometrijskog modela je slijedeći: 𝑌𝑡 = 𝑓(𝑋𝑖 ) + 𝜀𝑖 , 𝑖 = 1, 2, … , 𝑛

(1)

gdje:   

Yi predstavlja vektor (n x 1) varijabli koje model želi objasniti (endogene, zavisne varijable), a koje se odnose na i-to opažanje f je funkcija zbog koje Yi zavisi od vektora (k x 1) nezavisnih varijabli Xi i je vektor (n x 1) slučajnih pogrešaka.

Svaki ekonometrijski model sastavljen je od dva karakteristična dijela: 



deterministički dio modela: sustavni dio modela f(Xi) koji izražava postuliranu teorijsku vezu danu ekonomskom teorijom pri kojoj je Yi zavisna od Xi, ako su drugi čimbenici konstantni (ceteris paribus klauzula), predstavlja dakle, sistematske varijacije Y u zavisnosti od promjene u X; stohastički dio modela i: nesustavni dio modela (slučajno odstupanje), koji predstavlja slučajne varijacije kojima se uzima u obzir djelovanje promjena ostalih varijabli koje su izostavljene iz modela; slučajna su odstupanja pojedinačno posve beznačajna, ali njihov zajednički utjecaj može biti zamjetljiv.

VARIJABLE EKONOMETRIJSKOG MODELA

Varijabla čije se varijacije objašnjavaju pomoću drugih varijabli naziva se zavisnom varijablom, a varijable kojima se objašnjava varijacija zavisne varijable nazivaju se nezavisnim varijablama. Zavisne varijable su one koje su determinirane sustavom. Model je i tako konstruiran da ih objasni, pa je broj jednadžbi jednak broju endogenih varijabli. Nezavisne varijable formirane su van sustava. Pri svakoj konstrukciji ekonometrijskog modela javlja se problem odabira, odnosno klasifikacije varijabli na zavisne i nezavisne. Status varijabli u modelu, to jest proces određivanja koja je varijabla zavisna, a koje su varijable nezavisne, zavisi o danoj primjeni modela i izvire iz poznavanja područja primjene. Ima više različitih naziva za pojam zavisna i nezavisna varijabla. Kadšto su ti nazivi u svezi s područjem primjene modela. U sljedećoj tablici su dani izrazi koji se najčešće koriste za pojam zavisne i nezavisnih varijabli. Tablica 1: Različiti izrazi za zavisnu i nezavisnu varijablu Nazivi varijabli čije se varijacije objašnjavaju – varijabla Y zavisna varijabla regresand varijabla endogena varijabla output varijabla prediktand varijabla varijabla cilja varijabla efekata varijabla odziva objašnjena varijabla

Nazivi varijabli pomoću kojih se objašnjavaju varijacije Y – varijabla X nezavisne varijable regresorske varijable egzogene varijable input varijable prediktorske varijable kontrolne varijable kauzalne varijable stimulus varijable eksplanatorne varijable

PARAMETRI EKONOMETRIJSKOG MODELA

U svakom ekonometrijskom modelu pojavljuju se određeni parametri ili koeficijenti regresije modela. Jednadžba pravca, odnosno funkcionalni dio modela određen je ako su poznati

11

I. DIO UVODNO O EKONOMETRIJI

2.

Poglavlje: Metodologija ekonometrijskog istraživanja

parametri. Parametar  mjeri vrijednost varijable Y koja odgovara vrijednosti 0 varijable X. Parametar , nagib funkcije, mjeri promjenu vrijednosti varijable Y koja odgovara jedinici promjene vrijednosti varijable X. SLUČAJNA VARIJABLA

Ekonomska teorija izražava ekonomske odnose u «točnom, egzaktnom obliku», odnosno obliku funkcionalne zavisnosti. U praksi se često javljaju «statističke diskrepancije». Takve je diskrepancije, koje su stohastičke prirode teško eliminirati, ali je relativno lako njima operirati, ukoliko nisu proizvod grubih sustavnih grešaka u formuliranju modela ili mjerenju. Statistički odnosi među pojavama razlikuju se od determinističkih (funkcionalnih) odnosa. Statistički odnosi pojava pod utjecajem su nesistematskih, stohastičkih varijacija, čija prisutnost izvire iz prirode tih odnosa. Stohastički element u jednadžbama ekonomskog ponašanja konvencionalno se tretira dodajući jednadžbi «slučajnu varijablu u» nazvanu slučajno odstupanje ili slučajna pogreška ili rezidualno odstupanje. Promjenjiva veličina ut uključuje se u model da bi obuhvatila utjecaj raznih pogrešaka, koje se mogu svrstati u tri grupe:  

slučajne, odnosno nesustavne pogreške mjerenja relevantnih varijabli pogreške specifikacije modela, odnosno:  pogreške izostavljanja varijabli, koje su brojne i nezavisne i koje se mijenjaju raznim pravcima, tako da je ukupni efekt na zavisno promjenjivu veličinu slučajan, odnosno nepredvidiv u svakom posebnom razdoblju,  pogreške specifikacije uslijed pojednostavljenja matematičkog oblika zavisnosti koje je u stvarnosti kompleksniji.  pogreške zbog rada s uzorkom, jer bez obzira na veličinu uzorka on daje tek parcijalne informacije o populaciji. Suma tako međusobno odvojenih i nepredvidivih utjecaja ponaša se kao slučajna promjenjiva veličina.

12

II. DIO REGRESIJSKA ANALIZA

13

II. DIO REGRESIJSKA ANALIZA

3. Poglavlje: Regresijska analiza – Temeljni pojmovi -

3. POGLAVLJE

REGRESIJSKA ANALIZA -

TEMELJNI POJMOVI -

E

konomska se teorija uglavnom bavi odnosima među varijablama. Općenito se može tvrditi da se cjelokupni sadržaj ekonomske teorije može promatrati kao zbirka odnosa među varijablama. Ekonometrija se bavi testiranjem teorijskih tvrdnji i postavki u navedenim odnosima te procjenjivanjem parametara koje oni sadrže. Ekonometričari koriste različite statističke tehnike, no osnovna je regresijska analiza. Cilj ekonometrijskog istraživanja je verifikacija ekonomskih zakonitosti, a statistička tehnika koja služi za kvantificiranje i testiranje navedenih zakonitosti je regresijska analiza. Regresijska se analiza sastoji u primjeni različitih metoda ispitivanja zavisnosti jedne varijable o drugoj varijabli ili o više drugih varijabli. Varijable predočuju pojave koje su u nekom odnosu. Korelacijska i regresijska analiza statistička su sredstva za proučavanje povezanosti (odnosa) među pojavama. Korelacijska analiza proučava jakost, intenzitet ili stupanj povezanosti među pojavama. Regresijska analiza precizno opisuje povezanost uz pomoć regresijskog modela. PRIMJER 1 Dohodak  Stupanj obrazovanja Korelacija dviju varijabli: ne spominje se koja varijabla utječe na koju. Korelacija određuje jakost veze; koeficijent korelacije: mjera jačine veze samo za linearne veze: -1 r  1. Dohodak = f (Stupanj obrazovanja) Regresija ukazuje na smjer uzročnosti, za razliku od korelacije koja je simetrična. Regresijska analiza proučava zavisnost varijable o nezavisnim varijablama te ukazuje na postojanje tendencije kretanja prema prosječnoj vrijednosti.

Regresijska analiza predstavlja statističku tehniku objašnjavanja promjena u jednoj varijabli (zavisnoj varijabli), kao funkciji promjene u skupu drugih varijabli (nezavisne ili objasnidbene varijable). PRIMJER 2 Q = f (P, PS, Ya) Q – količina potražnje P – cijena PS – cijena supstituta Ya – visina dohotka Regresijska analiza testira smjer i jačinu kvantitativne veze, ali ne dokazuje uzročnost. Uzročnost dokazuje ekonomska teorija.

Regresijska analiza bavi se izučavanjem odnosa između jedne zavisne i jedne ili više nezavisnih varijabli. Možemo biti zainteresirani za istraživanje odnosa između količine potražnje nekog proizvoda i njegove cijene, dohotka potrošača i cijene supstituta. Spomenuti odnos temelji se na određenoj ekonomskoj teoriji koja specificira postojanje jedne zavisne (Y) i jedne ili više nezavisnih varijabli (X). No, iako se regresijska analiza bavi proučavanjem

14

II. DIO REGRESIJSKA ANALIZA

3. Poglavlje: Regresijska analiza – Temeljni pojmovi -

odnosa među varijablama, ona ne implicira kauzalnost: ne dokazuje da je nezavisna varijabla uzrok, a zavisna posljedica. Kauzalnost dviju varijabli mora biti dokazana ekonomskom teorijom koja dokazuje pojavu, koju se empirijskim putem testira. Regresijska analiza ima slijedeće ciljeve:  Procijeniti srednju vrijednost zavisne varijable za danu vrijednost nezavisne varijable.  Testirati hipoteze o prirodi povezanosti: hipoteze sugerira ekonomska teorija. Primjerice, u funkciji potražnje, želi se testirati da cjenovna elastičnost potražnje iznosi -1: krivulja potražnje ima jediničnu cjenovnu elastičnost. Ako cijena proizvoda poraste za 1%, količina potraživanog proizvoda smanjuje se za 1%, pod pretpostavkom konstantnosti ostalih čimbenika.  Predvidjeti ili prognozirati srednju vrijednost zavisne varijable, za dane vrijednosti nezavisne varijable izvan dometa uzorka. Prema (Jurun, Pivac, Arnerić, 2006) osnovne zadaće regresijske analize su:  Pronaći analitički oblik veze između jedne zavisne i jedne ili više nezavisnih varijabli.  Temeljem analitičkog oblika izvršiti predviđanje vrijednosti zavisne varijable pri određenim vrijednostima nezavisne-nih varijabli. Cjeloviti postupak regresijske analize obuhvaća sljedeće korake: DEFINIRANJE PREDMETA I CILJEVA ISTRAŽIVANJA

Nakon sagledavanja teorijskih spoznaja kao i rezultata prethodnih istraživanja promatrane pojave postavljaju se osnovne pretpostavke. Tek je tada moguće potpuno, precizno i koncizno definirati predmet i cilj istraživanja. ODABIR MODELA I DEFINIRANJE VARIJABLI

Radi se o odabiru čimbenika (nezavisnih varijabli X) koji imaju najznačajniji utjecaj na zavisnu varijablu Y. Ovo je vrlo složen korak, jer bi uključivanje irelevantnih varijabli dovelo do ne manjih grešaka specifikacije od isključivanja relevantnih varijabli iz regresijskog modela. Potrebno je i provjeriti ispunjenje svih pretpostavki stohastičnosti slučajne varijable (GaussMarkovljevi uvjeti). U samom pristupu analizi važno je odrediti je li prikladniji model u kojem je slučajni član aditivan ili je ispravnije analizu započeti s multiplikativnim modelom. Uz to se mora odabrati između jednodimenzionalnog ili multiplog regresijskog modela. FORMIRANJE STATISTIČKO-DOKUMENTACIJSKE OSNOVE

Formiranje baze podataka mora udovoljavati svim zahtjevima prikupljanja valjanih podataka. ODABIR KONKRETNOG REGRESIJSKOG MODELA

Pri odabiru konkretnog regresijskog modela njegova specifikacija obuhvaća odabir optimalnog funkcionalnog oblika modela te broja i karaktera relevantnih varijabli. STATISTIČKA ANALIZA MODELA

Ovaj korak obuhvaća ocjenu parametara i provjeru pokazatelja reprezentativnosti regresijskog modela. TESTIRANJE HIPOTEZA O MODELU I STATISTIČKO TEORIJSKIH PRETPOSTAVKI

Ovaj korak obuhvaća testiranje hipoteza o statističkoj značajnosti svakog pojedinog parametra u modelu, kao i pretpostavki o slučajnoj pogrešci modela. VREDNOVANJE MOĆI PREDVIĐANJA MODELA

Ukoliko model nema zadovoljavajuću moć predviđanja, a zadovoljava kriterije prethodnih koraka, može se koristiti u analitičke svrhe.

15

II. DIO REGRESIJSKA ANALIZA

3. Poglavlje: Regresijska analiza – Temeljni pojmovi -

INTERPRETIRANJE REZULTATA

Temeljem valjanosti svih navedenih koraka moguće je izvršiti sintezu rezultata i donijeti zaključke o pojavi koja se istražuje. Osnova je svake analize regresijski model. Regresijski model definira se kao: algebarski model kojim se analitički izražava statistički odnos među pojavama, odnosno jednadžba ili skup jednadžbi s konačnim brojem parametara i varijabli Svaki regresijski model sadrži slučajnu varijablu kojom se predočuju nesistematski utjecaji i po kojoj se statistički model razlikuje od determinističkog modela. Regresijski modeli služe u analitičke, često prediktivne svrhe. Oblici modela su različiti i zavise o danom slučaju primjene. Postupak kojim se odabire oblik modela, odabiru i definiraju varijable, određuje njihov status te postavljaju hipoteze naziva se građenjem modela. Opći oblik regresijskog modela može biti 𝑌 = 𝑓(𝑋1 , 𝑋2 , … , 𝑋𝑗 , … , 𝑋𝑘 ) + 𝜀

(2)

𝑌 = 𝑓(𝑋1 , 𝑋2 , … , 𝑋𝑗 , … , 𝑋𝑘 ) ∙ 𝜀

(3)

ili

gdje je: Y f (X) X1, X2,… Xk, ( )

   

zavisna varijabla funkcionalni dio modela koji je različit te zavisi o danom slučaju primjene nezavisne varijable stohastička varijabla koja predočuje nesistematske utjecaje na zavisnu varijablu

PODACI

Regresijski model analizira se polazeći od stvarnih vrijednosti pojava, odnosno od stvarnih (empirijskih) vrijednosti varijabli. Podaci za regresijsku analizu potječu iz primarnih ili sekundarnih izvora, a nastaju mjerenjem ili opažanjem u statističkim pokusima. U primjenama regresijskog modela podaci se pojavljuju kao:   

vremenski nizovi (vremenske serije), podaci vremenskog presjeka te mješoviti podaci.

Podaci vremenskog niza (time series data) sadrže informacije o kretanju vrijednosti varijable tijekom određenog vremenskog razdoblja. Podaci se sakupljaju u jednakim vremenskim intervalima: godišnje, polugodišnje, mjesečne, kvartalne intervale. Tako sakupljeni podaci mogu biti kvantitativne prirode (cijene, osobna potrošnja, investicije, stopa nezaposlenosti) ili kvalitativne prirode ili dummy varijable (muškarci, žene, zaposleni, nezaposleni, udati ili ne udati). Dummy podaci poprimaju vrijednosti od 0 i 1 čime se izražava prisutnost odnosno odsutnost nekog kvalitativnog svojstva. Podaci vremenskoga presjeka ili brojčane vrijednosti pojava (cross-sectional data) su vrijednosti varijabli u jednom vremenskom intervalu ili vremenskoj točki za specifične jedinice (poduzeće, gospodarski sektor, zemlja). Mješoviti podaci (pooled data) su kombinacija podataka vremenske serije i podataka vremenskog presjeka. Primjer mješovitih podataka su podaci o stopi nezaposlenosti tijekom 10 godina za 20 različitih zemalja. Podaci za stopu nezaposlenosti za razdoblje od 10 godina predstavljaju podatke vremenske serije, dok podaci o stopi nezaposlenosti za svaku pojedinu zemlju

16

II. DIO REGRESIJSKA ANALIZA

3. Poglavlje: Regresijska analiza – Temeljni pojmovi -

predstavljaju podatke vremenskog presjeka. Raspolagat će se tako podacima sastavljenim od 200 zapažanja: 10 godišnjih opažanja za 20 različitih zemalja. Posebna vrsta mješovitih podataka su tzv. Panel podaci (panel data, longitudinal data ili micropanel data) koji se sastoje od opažanja uzetih za jednu gospodarsku jedinicu (poduzeće ili obitelj) kroz određeni vremenski period. Panel podaci koji se dobiju anketiranjem istih gospodarskih jedinica u jednakim vremenskim intervalima vrlo su korisni za analizu kretanja ponašanja tih gospodarskih jedinica. Kako je neke utjecaje nemoguće kvantificirati u nekim se modelima pojavljuju i binarne ili dummy varijable (dummy variables, indicator variables). One poprimaju naprijed poznate vrijednosti 0 ili 1. Vrijednost 0 govori o odsutnosti nekog svojstva, a 1 o prisutnosti svojstva, pa su one sredstvo kojim se u model uključuje određena kvalitativna varijabla. Podaci na temelju kojih se provode postupci katkada se transformiraju radi pojednostavljenja računanja ili radi poboljšanja njihove kvalitete. Tako se umjesto originalnih varijabli rabe njihove logaritamske vrijednosti, recipročne vrijednosti. Već je spomenuto da uspješnost ekonometrijskog istraživanja uvelike zavisi od kvalitete i količine podataka. Vrlo često u fazi prikupljanja ekonomskih podataka dolazi do različitih poteškoća i pogrešaka. Najčešće se u analizama koriste javni podaci, koji mogu u sebi sadržavati određenu pogrešku u definiciji, statističkom izračunavanju ili nepotpunom obuhvatu i slično. Stoga, je u ovoj fazi ekonometrijskog istraživanja potrebno voditi računa o tome jesu li varijable odabranog modela izmjerene na odgovarajući način, tj. je li statistički podaci odgovaraju svojoj ekonomskoj definiciji te da li sadržavaju pogrešku mjerenja. VREMENSKA DIMENZIJA

Vremenska dimenzija u regresijskom modelu dolazi do izražaja na različite načine. Tako se u regresijski model može uključiti varijabla vrijeme kao nezavisna varijabla. Vremenske serije (vremenski nizovi) često su brojčana podloga za konkretizaciju modela. Ako vremenski nizovi čine vrijednosti varijabli u modelu tada njihova kovarijacija u vremenu može biti sinkrona ili asinkrona. Sinkrona kovarijacija Ako se s {𝑌𝑡 , 𝑡 = 1, 2, … , 𝑛} označi vremenska serija vrijednosti zavisne varijable Y; a s {𝑋𝑡1 , 𝑋𝑡2 , … , 𝑋𝑡𝑗 , … , 𝑋𝑡𝑘 , 𝑡 = 1, 2, … , 𝑛} vremenske serije nezavisnih varijabli X1, X2, Xj, Xk u modelu: Yt= f (Xt1, Xt2, Xtj,…, Xtk)+et,

t=1, 2,…,n

(4)

vrijednost zavisne varijable u vremenu t funkcija je vrijednosti nezavisnih varijabli u istom vremenu t i vrijednosti slučajne varijable e u istom vremenu. Pojave (varijable) predočene u tom modelu sinkrono kovariraju (Promatra li se odnos raspoloživog dohotka i osobne potrošnje stanovništva, sinkrona kovarijacija upućuje na odnos tekućeg raspoloživog dohotka i tekuće osobne potrošnje za svako od n razdoblja.). Asinkrona kovarijacija Asinkrona kovarijacija prisutna je ako na tekuću vrijednost zavisne varijable djeluju vrijednosti nezavisnih varijabli prethodnog razdoblja ili više razdoblja prije tekućeg (pomak u vremenu). U nekim modelima u statusu nezavisne varijable može se naći i zavisna varijabla s pomakom u vremenu. U modelu Yt = f(Yt-1, X1t, X2,t-1, X3,t-2+…)+et

(5)

17

II. DIO REGRESIJSKA ANALIZA

3. Poglavlje: Regresijska analiza – Temeljni pojmovi -

tekuća vrijednost zavisne varijable Y zavisi o njenoj prethodnoj vrijednosti, o tekućoj vrijednosti nezavisne varijable X1, o vrijednosti prethodnog razdoblja varijable X2, o vrijednosti dvaju razdoblja ispred tekuće varijable X3… i o vrijednosti slučajne varijable iz tekućeg razdoblja. Model Yt = f(Xt, Xt-1, Xt-2+…)+et

(6)

izražava zavisnost tekuće vrijednost zavisne varijable Y o tekućoj vrijednosti i proteklim vrijednostima nezavisne varijable X i tekućoj vrijednosti varijable e. Tekuća vrijednost zavisne varijable Y može se predočiti pomoću njezinih proteklih vrijednosti i tekuće vrijednosti varijable e, to jest modelom: 𝑌𝑡 = 𝑓(𝑌𝑡 , 𝑌𝑡−1 , 𝑌𝑡−2 + ⋯ ) + 𝑒𝑡

(7)

VRSTE MODELA

Regresijski modeli dijele se na:  

simultane: sastoje se iz dvije ili više povezanih jednadžbi te nesimultane: sastoje se od jedne jednadžbe.

Regresijski model može biti:  

model jednostavne regresije: ako se sastoji od jedne zavisne i jedne nezavisne varijable te model višestruke (multiple) regresije: ako sadrži jednu zavisnu i dvije ili više nezavisnih varijabli.

LINEARNOST MODELA

Važna pretpostavka primjene linearne regresije je linearnost modela. Među regresijskim modelima važnu skupinu čine linearni regresijski modeli. Linearnost regresijskog modela po pravilu se povezuje s dimenzijom (potencijom) varijabli i nepoznatih parametara. Model je linearan u varijablama ako svaka varijabla u modelu ima potenciju jednaku 1 te nije podijeljena ili pomnožena s drugom varijablom. Model je linearan u parametrima ako svaki parametar u njemu ima potenciju jednaku 1, te ako isti nije pomnožen ili podijeljen s drugim parametrima. Model u kojem su parametri u umnošku ili kvocijentu nelinearan je u parametrima. Regresijski model može biti:    

linearan u varijablama i linearan u parametrima, nelinearan u varijablama i linearan u parametrima, linearan u varijablama i nelinearan u parametrima, te nelinearan u varijablama i nelinearan u parametrima.

Sa stajališta metoda statističke analize model je linearan ako je linearan u parametrima. U sklopu metoda statističke analize model se dijeli na: ‒ linearne, ‒ nelinearne koji se prikladnom transformacijom mogu transformirati u linearne te ‒ nelinearne («pravi» nelinearni modeli). Mogućnost transformacije nelinearnih modela u linearne modele zavisi o položaju slučajne varijable.

18

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

4. POGLAVLJE

REGRESIJSKI MODEL S DVIJE VARIJABLE - TEMELJNI POJMOVI-

N

ajjednostavniji slučaj linearnog odnosa sadrži samo dvije mjerljive varijable.

4.1. ODNOS IZMEĐU VARIJABLI Odnos između varijabli X i Y definiramo kao skup svih vrijednosti koje označava zadana jednadžba. Ako je zadana jednadžba 𝑌 = 𝛽0 + 𝛽1 𝑋

(8)

gdje su 0 i 1 konstante tada je, odnos između X i Y skup {𝑥, 𝑦}koji se sastoji od svih mogućih vrijednosti X i Y koje zadovoljavaju jednadžbu. Pojam odnosa povezan je s pojmovima:  

domene: skup svih mogućih vrijednosti varijable X te područja vrijednosti: skup svih mogućih odgovarajućih vrijednosti varijable Y.

Svi se odnosi među varijablama mogu klasificirati kao: 



deterministički: ako se svaki element domene združuje sa samo jednim elementom područja vrijednosti; odnos između X i Y okarakteriziran je kao Y=f(X) deterministički ako za svaku vrijednost varijable X postoji samo jedna odgovarajuća vrijednost varijable Y; stohastički: ako za svaku vrijednost varijable X postoji cjelokupna distribucija vjerojatnosti vrijednosti varijable Y; u tom slučaju, za bilo koju zadanu vrijednost varijable X, varijabla Y može poprimiti neku specifičnu vrijednost ili pasti unutar nekog određenog intervala, s vjerojatnošću manjom od 1 i većom od 0, što znači da se vrijednost varijable Y nikada ne može točno predvidjeti.

PRIMJER 3 Ilustriranje razlike između determinističkog i stohastičkog odnosa (Primjer preuzet iz Kmenta, 1997) Pretpostavimo da izvodimo niz pokusaq u grupi da bismo odredili potražnju za jabukama pri različitim cijenama. Neka je:  

qt količina jabuka prodanih u vremenu t pt cijena jabuka

Grupa potrošača svaki put tijekom razdoblja plaća jabuke koje se nude po danoj cijeni. Na kraju imamo slijedeće rezultate: pt qt

25 1

20 3

15 5

10 7

5 9

0 11

19

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

20

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

Ti se rezultati mogu prikazati kao: 𝑞𝑡 = 11 − 0,4𝑝𝑡 Odnos je između cijene i količine takav da u svakom trenutku, u kojem bi jabuke bile ponuđene po 25 novčanih jedinica po komadu bila bi prodana samo jedna jabuka. To je deterministički odnos, jer za svaku cijenu postoji samo jedna količina prodanih jabuka. Ako razmotrimo različiti skup rezultata: cijena 25

količina 0 jabuka 25% vremena 1 jabuka 50% vremena 2 jabuka 25% vremena

20

2 jabuka 25% vremena 3 jabuka 50% vremena 4 jabuka 25% vremena . . . 10 jabuka 25% vremena 11 jabuka 50% vremena 12 jabuka 25% vremena

. . . 0

gdje je t slučajna varijabla koja bez obzira na specifičnu cijenu, ima slijedeću distribuciju vjerojatnosti:

t

f(t) 0,25 0,5 0,25 1,00

-1 0 +1

Ta se varijable zove slučajno odstupanje (slučajna pogreška), jer remeti inače deterministički odnos. Zadnji je odnos stohastički jer se, zbog prisutnosti odstupanja za svaku cijenu traži nekoliko količina, pri čemu se svaka količina ostvaruje s danom vjerojatnošću. Grafički prikaz dvaju odnosa dan je na slijedećoj slici. Slika 3: Deterministički i stohastički odnos stohastički odnos

deterministički odnos 12

10

10

Količina

12

Količina

8 6

X X

8

X X

6

4

4

2

2

X X

X X

X X X X

0

5

10 Cijena

15

20

25

0

5

10

15

20

25

Cijena

21

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

4.2. JEDNOSTAVNI LINEARNI REGRESIJSKI MODEL Ekonometrija se bavi isključivo stohastičkim odnosima. Najjednostavniji oblik stohastičkog odnosa između dvije varijable X i Y zove se jednostavni linearni regresijski model. Taj se model formalno izražava u obliku: 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖

(9)

u kojem je: Y X

 i

0 i  1

    

zavisna varijabla nezavisna varijabla slučajno odstupanje i-to opažanje nepoznati koeficijenti ili parametri:  0: konstanti član, predstavlja odsječak na osi ordinate  1: koeficijent nagiba (smjera), regresijski koeficijent, označava vrijednost za koju će se promijeniti y kada se x promijeni za 1.

Stohastička narav regresijskog modela podrazumijeva da za svaku vrijednost varijable X postoji cijela distribucija vjerojatnosti za vrijednosti varijable Y. To znači da se vrijednost varijable Y nikada ne može točno predvidjeti. Neizvjesnost se glede varijable Y, pojavljuje zbog prisutnosti slučajnog odstupanja  koje, budući da je slučajno, pridaje slučajnost i varijabli Y. PRIMJER 4 Razmotrimo proizvodnu funkciju poduzeća. Pretpostavimo da proizvodnja na neki specifičan način zavisi o količini uloženog rada. Takva se proizvodna funkcija može odnositi na kratak rok u kojem su količine ostalih čimbenika fiksne. Međutim, općenito, ista će količina rada dovesti do različitih količina proizvodnje zbog varijacija u vremenu, mogućnosti ljudi, učestalosti zastoja strojeva i drugih čimbenika. Proizvodnja će, koja je u tom slučaju zavisna varijabla, zavisiti ne samo o količini uloženog rada koji je nezavisna varijabla, već i o velikom broju slučajnih uzroka koji se sažeto izražavaju u obliku slučajnog odstupanja. Ti su slučajevi pojedinačno posve beznačajni da bi ih se zapazilo. Međutim, njihov zajednički utjecaj može biti posve zamjetljiv. Vrijednost varijable X i distribucija vjerojatnosti slučajne varijable  određuju tada distribuciju vjerojatnosti varijable Y i njezine karakteristike.

4.3. POSEBNOST ZNAČENJA TERMINA «LINEARNA» REGRESIJA Izraz (9) predstavlja model linearne regresije. Potrebno je razjasniti što zapravo termin «linearan» znači. Linearnost regresijskog modela može se interpretirati na dva načina i to kao linearnost u varijablama te linearnost u parametrima. LINEARNOST U VARIJABLAMA

Prvo i možda «prirodnije» značenje linearnosti je to da je očekivana vrijednost zavisne varijable Y linearna funkcija nezavisne varijable(i) X kao u izrazu (9). Za funkciju Y= f (X)  

X ima potenciju 1 (izrazi X2 i X nisu linearni) te, X nije pomnožen ili podijeljen sa nekom drugom varijablom, kao na primjer: XZ i X/Z, gdje je Z druga varijabla.

U takvoj interpretaciji sljedeći izrazi nisu linearni

E( Y )   1   2  X i2

(10)

22

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

E( Y )   1   2 

1 Xi

(11)

jer u izrazu (10) X ima potenciju 2, a u izrazu (11) se X pojavljuje u inverznom obliku. Za regresijski model koji je linearan u nezavisnoj varijabli(ama) stopa promjene u zavisnoj varijabli ostaje konstantna za jedinicu promjene u nezavisnoj varijabli; nagib ostaje konstantan. Za regresijski model koji je nelinearan u nezavisnoj varijabli nagib nije konstantan, što je vidljivo na sljedećoj slici. Slika 4: Linearna (a) i nelinearna (b) krivulja potražnje

𝑌𝑖 = 𝛽1 − 𝛽2 𝑋2

Na slici (a) za regresiju iz izraza (9), nagib – stopa promjene u (E)Y – srednja vrijednost od Yi, ostaje ista, to jest 2, bez obzira na kojoj vrijednost od X se promjena mjeri. S druge strane, za regresiju iz izraza (11), stopa promjene u srednjoj vrijednosti Y, varira iz točke u točku na regresijskoj krivulji,1. LINEARNOST U PARAMETRIMA

Drugi način interpretiranja linearnosti jest, da je očekivanje zavisne varijable linearna funkcija parametara. Analogno linearnosti u varijablama, funkcija je linearna u parametrima, ako parametri imaju potenciju 1. Izrazi (10) i (11) predstavljaju linearne model, je parametri poštuju uvjete linearnosti, nelinearnost varijable X se ne uzima u obzir. Međutim model tipa

E( Y )   1   22  X i

(12)

nelinearan je u parametrima jer se 2 pojavljuje s potencijom 2. Sa stajalište regresijske analize model je linearan ako je linearan u parametrima.

U linearnom modelu nagib, iznos Y u odnosu na X, je konstantan i jednak 2, dok u nelinearnom modelu iznosi −𝛽2 (1⁄𝑥𝑖2 ), zavisi od vrijednosti X na kojoj se nagib mjeri te nije konstantan. 1

23

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

ZADACI ZA VJEŽBU2 1 .

2 . 3 .

Analiziraju se slijedeće varijable te odredite moguću status pojava, odnosno varijabli u regresijskom modelu:  raspoloživi dohodak, osobna potrošnja;  uloženi kapital, broj zaposlenih, opseg proizvodnje;  ukupni troškovi, opseg proizvodnje;  per capita bruto društveni proizvod, veličina fiksnog kapitala, broj zaposlenih, medijalni -broj završenih godina školovanja;  prihod, broj turističkih ležajeva, prosječan broj noćenja, prosječni godišnji dohodak kojime raspolaže turist. Kako glase regresijski modeli ako je funkcionalni dio modela: a) f(x) = 1+2X; b) f(X1, X2) = 0X11X22 Klasificirajte slijedeće modele s obzirom na (1) dimenziju (potenciju) varijabli i parametara te (2) s obzirom na uporabu metoda statističke analize: a) 𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝑒𝑖 2 b) 𝑦𝑖 = 𝛼 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + 𝑒𝑖 c) 𝑦𝑖 = 𝛼 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + 𝛽3 √𝑥𝑖3 + 𝑒𝑖 d)

4 .

𝛽 𝛼𝑥𝑖11

𝛽

𝛽 𝑥𝑖22

e) ∙ + 𝑒1 Linearizirajte sljedeće modele: a)

5 .

𝛽

𝑦𝑖 = 𝛼𝑥𝑖11 ∙ 𝑥𝑖22 ∙ 𝑒𝑖

𝑦 = 𝑏0 +

𝑏1

+

𝑥1 𝐿𝛼𝑡 ∙

𝑏2

𝑥2 𝛽 𝐶𝑡 ∙

+𝑢

b) 𝑄𝑖 = 𝐴 ∙ 𝑢𝑡 Analizira se per capita raspoloživi dohodak po stanovniku i osobna potrošnja po stanovniku u SAD-u. Podaci su dani po godinama razdoblja 2000-2014. Vrijednost dohotka i potrošnje izražene su u stalnim cijenama (u dolarima 2000. godine). Podaci su dani u sljedećoj tablici. Godina 2000. 2001. 2002. 2003. 2004. 2005. 2006. 2007. 2008. 2009. 2010. 2011. 2012. 2013. 2014.

Per capita osobna potrošnja 3 277 3 355 3 511 3 623 3 566 3 609 3 774 3 924 4 057 4 121 4 093 4 131 4 146 4 303 4 490

Per capita raspoloživi dohodak 3 665 3 752 3 860 4 808 4 009 4 051 4 158 4 280 4 441 4 512 4 487 4 561 4 555 4 670 4 941

Temeljem podataka iz tablice: a) Odredite status varijabli u modelu regresije. b) Nacrtajte dijagram rasipanja. Što se zaključuje na temelju dijagrama?

Zadaci preuzeti i prilagođeni prema Šošić, I. (2004), Primijenjena statistika, Školska knjiga, Zagreb i Lovrić, LJ. (2005), Uvod u ekonometriju, Ekonomski fakultet Rijeka, Rijeka. 2

24

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

RJEŠENJA ZADATAKA 1.

2. 3.

4.

Određivanje statusa varijable u regresijskom modelu izvire iz ekonomske teorije. (1) Osobna potrošnja zavisi o raspoloživom dohotku, pa je zavisna varijabla osobna potrošnja, a nezavisna varijabla raspoloživi dohodak. (2) Opseg proizvodnje zavisi o veličini kapitala i broju zaposlenih. Opseg proizvodnje je zavisna varijabla, a veličina uloženog kapitala i broj zaposlenih su nezavisne varijable. (3) Varijabla ukupni troškovi je zavisna, a nezavisna varijable je opseg proizvodnje. (4) Per capita bruto društveni proizvod zavisi o veličini fiksnog kapitala, broju zaposlenih, medijalnom zbroju završenih godina školovanja. Varijabla per capita bruto društveni proizvod zavisna je, a ostale varijable su nezavisne. (5) Varijabla prihod je zavisna, a varijable broj turističkih ležajeva, prosječan broj noćenja turista, prosječni godišnji dohodak turista nezavisne su varijable. a) Regresijski je (aditivni) model f(x) = 1+2X+e b) Model u kojem je stohastička varijabla u umnošku s funkcionalnim dijelom oblika je f(X1, X2) = 0X11X22e a) Model je linearan u varijablama i parametrima jer su potencije varijabli i parametara jednake jedan. Sadrži jednu zavisnu i jednu nezavisnu varijablu i sa stajališta metoda statističke analize predočuje model jednostavne linearne regresije. b) Model je nelinearan u varijabli X2 (jer ta varijabla ima potenciju 2), a linearan u parametrima. Sa stajališta metoda statističke analize model je linearan. c) Model je nelinearan u varijabli X3 (ta varijabla ima potenciju 0,5), a linearan u parametrima i ubraja se među linearne statističke modele. d) Logaritamskom transformacijom model nelinearan u varijablama postaje 𝑙𝑛𝑦𝑖 = 𝑙𝑛𝛼 + 𝛽1 𝑙𝑛𝑥𝑖1 + 𝛽2 𝑙𝑛𝑥𝑖2 + 𝑙𝑛𝑒𝑖 . Parametri uz nezavisne varijable su s potencijom jedan, pa je riječ o linearnom (lineariziranom) modelu višestruke regresije. e) Model je nelinearan, i ne može se linearizirati, jer je varijabla e u zbroju s funkcionalnim dijelom modela. Stoga je riječ o «pravom» nelinearnom modelu. a) 𝑍1 = 1 , 𝑍2 = 1 , 𝑡𝑒 𝑗𝑒 𝑦 = 𝑦 = 𝑏0 + 𝑏1 𝑍1 + 𝑏2 𝑍2 + 𝑢 𝑥1

𝑥2

b) 𝑙𝑜𝑔𝑄𝑖 = 𝑙𝑜𝑔𝐴 + 𝛼𝑙𝑜𝑔𝐿𝑡 + 𝛽𝑙𝑜𝑔𝐶𝑡 + 𝑙𝑜𝑔𝑢𝑡

4600 4400

per capita potrošnja

5.

𝑞𝑡 = 𝑙𝑜𝑔𝑄𝑖 ; 𝑎 = 𝑙𝑜𝑔𝐴; 𝑙𝑡 = 𝑙𝑜𝑔𝐿𝑡 ; 𝑐𝑡 = 𝑙𝑜𝑔𝐶𝑡 ; 𝑣𝑡 = 𝑙𝑜𝑔𝑢𝑡 𝑞𝑡 = 𝑎 + 𝛼𝑙𝑡 + 𝛽𝑐𝑡 + 𝑣𝑡 a) Gospodarska teorija upućuje da osobna potrošnja ovisi o raspoloživom dohotku. Najjednostavniji statistički model potrošne funkcije jest model jednostavne linearne regresije u kojem je raspoloživi dohodak po stanovniku nezavisna varijabla, osobna potrošnja po stanovniku zavisna varijabla. b) Dijagram rasipanja:

4200 4000 3800 3600 3400 3200 3000 3600

3800

4000

4200

4400

4600

4800

5000

per capita dohodak

Točke na dijagramu rasipanja raspoređuju se od donjeg lijevog kuta kvadrata koordinatnog sustava prema gornjem desnom kutu. Prema rasporedu točaka uočava se da je povezanost raspoloživog dohotka i potrošnje po obliku linearna.

25

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

4.4. REGRESIJSKA FUNKCIJA POPULACIJE I REGRESIJSKA FUNKCIJA UZORKA Jednadžba Y=0 + 1X matematička je funkcija čije je obilježje determinističnost. Za razliku od matematičke funkcije, regresijska je funkcija stohastička. Regresijskom funkcijom izražavamo vezu među pojavama (varijablama) iz realnog svijeta. Ta veza nije nikad tako precizna da bi se mogla točno predstaviti nekom teorijskom funkcijom. PRIMJER 5 Funkcija potrošnje. Prema makroekonomskoj teoriji, potrošnja domaćinstva (Y) zavisi o dohotku domaćinstva (X). Ako dohodak raste, raste i potrošnja. Takvu vezu moguće je opisati jednostavnim regresijskim modelom. Radi se o stohastičkoj veličini čiju vjerojatnost označavamo kao vjerojatnost od Y pri danoj vrijednosti od X i (uvjetna vjerojatnost od Y za dano Xi): P(Y/Xi). Za takvu stohastičku varijablu možemo izračunati srednju vrijednost, koju nazivamo očekivana vrijednost E (Y/Xi). To znači da tvrdnja „sva domaćinstva koja imaju veći dohodak troše više“ vrijedi u prosjeku. Vidimo da se ovdje radi o stohastičkoj pojavi.

Za takve pojave vrijedi da je očekivana vrijednost zavisne varijable, funkcija nezavisne varijable: 𝐸(𝑌|𝑋𝑖 ) = 𝑓(𝑋𝑖 )

(13)

odnosno ako se radi o linearnoj funkciji: 𝐸(𝑌|𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑥𝑖

(14)

Izraz (14) zove se regresijska funkciju populacije (RFP). Pomoću regresijskog modela 𝐸(𝑌|𝑋𝑖 ) = 𝑓(𝑋𝑖 ) moguće je izračunati očekivanu potrošnju svih domaćinstava s jednakim dohotkom. Ovako izračunata očekivana vrijednost deterministička je veličina. Ukoliko uzmemo podatke za pojedino i-to domaćinstvo, vidjet ćemo da će se, za određenu visinu dohotka, potrošnja razlikovati od ove koje smo izračunali regresijskom jednadžbom. Ta odstupanja stvarnih vrijednosti potrošnje za svako domaćinstvo, od one izračunate regresijskom jednadžbom, označit ćemo sa u (). Ta odstupanja nazivaju se slučajna greška ili slučajna odstupanja, a predstavljaju razliku između empirijskih i očekivanih vrijednosti zavisne varijable: 𝑢𝑖 = 𝑌𝑖 − 𝐸(𝑌|𝑋𝑖 )

(15)

𝑌𝑖 = 𝐸(𝑌|𝑋𝑖 ) + 𝑢𝑖

(16)

𝑌𝑖 = 𝛽0 − 𝛽1 𝑋𝑖 + 𝑢𝑖

(17)

iz relacije izvodimo odnosno Tako od determinističkog modela, koji definira ekonomska teorija, dolazimo do stohastičkog, populacijskog regresijskog modela. Naime, potrošnja se, za svako domaćinstvo, sastoji od:  

očekivane vrijednosti potrošnje svih domaćinstava pri određenoj visini dohotka (deterministički dio) te slučajne pogreške (stohastički dio) koja se ponaša slučajno i koja predstavlja utjecaj drugih faktora na potrošnju, koji nisu predstavljeni uključenom regresorskom varijablom, pa je zbog nje i zavisna varijable također slučajna

Neki od glavnih razloga zbog kojih ta odstupanja nastaju jesu manji utjecaji koji nisu uključeni kao zasebne varijable, greške mjerenja varijabli, greške u izboru tipa funkcijske veze, te nepredvidive ili potpuno slučajne varijable.

26

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

Izraz (17) ocjenjuje se na cijelom skupu podataka populacije. Obično za tako velik skup ne raspolažemo podacima, pa se koristimo uzorcima na osnovi kojih ocjenjujemo parametre RFP koji nam u stvari nisu poznati. Dakle, kod ekonometrijskog modeliranja primjenjujemo saznanja statističke teorije, pa parametre RFP ocjenjujemo pomoću slučajnog uzorka. Ako bismo parametre RFP ocjenjivali na bazi različitih uzoraka, svaki put bismo dobili ocjene koje bi se međusobno ipak razlikovale, ali pretpostavljamo da se razlikuju samo zbog nekih slučajnih utjecaja. Regresijska funkcija populacije, koja je ocijenjena na bazi uzorka zove se regresijska funkcija uzorka (RFU) i notira se : 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋1

(18)

gdje su:  ocjene od 𝐸(𝑌|𝑋𝑖 )  ocjena od 𝛽0  ocjena od 𝛽1

𝑌̂𝑖 𝛽̂0 𝛽̂1

Osnovni zadatak jednostavne linearne regresijske analize jest naći pravac koji je najbolje prilagođen empirijskim podacima. Točke na tom pravcu označavaju se sa 𝑌̂𝑖 , i izračunavaju se pomoću jednadžbe (18). Razlika (19) zove se rezidual: 𝑌𝑖 − 𝑌̂𝑖 = 𝑒1

(19)

Rezidual predstavlja razliku između empirijskih točaka i točaka na regresijskom pravcu (ei je procjena slučajnog odstupanja na osnovi uzorka). Iz relacija (18 i 19) izvodi se jednadžba: 𝑌𝑖 = 𝑌̂𝑖 + 𝑒1

(20)

𝑌𝑖 = 𝛽̂0 + 𝛽̂1 𝑋1 + 𝑒𝑖

(21)

odnosno

4.4.1. REGRESIJSKA FUNKCIJA POPULACIJE

Za ilustriranje pojma regresijske funkcije populacije posegnimo za primjerom3. Pretpostavimo da želimo ocijeniti visinu izdataka 100 obitelji, na određenoj razini dohotka. Označimo sa X raspoloživi tjedni dohodak, a sa Y tjedni izdatak pojedine obitelji. Populacija od 100 obitelji podijeljena je u 10 dohodovnih razreda (od 150$ do 375$). Podaci o tjednom dohotku i izdacima prikazani su u tablici Tablica 2: Tjedni izdaci u odnosu na tjedni dohodak DOHODOVNI RAZRED X 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. SREDINA

150 28 27 25 33 23 15 18 12 13 15 20,90

175 33 31 29 27 24 20 18 15 14 10 22,10

200 35 31 30 28 26 22 20 17 16 19 24,40

225 36 34 31 29 27 26 23 21 18 16 26,10

TJEDNI IZDACI Y 250 275 38 40 36 37 33 32 30 30 28 29 25 27 23 25 22 22 20 18 18 32 27,30 29,20

300 42 39 34 31 30 29 26 24 25 23 30,30

325 43 35 31 30 29 33 32 30 31 25 31,90

350 45 39 33 30 27 30 28 32 32 34 33,0

375 46 40 34 31 28 32 30 31 33 31 33,60

Primjer preuzet i prilagođen prema Gujarati, D. N. i Porter, D. C. (2009), Basic Econometrics, Fifth Edition, McGraw-Hill International Edition, New York. 3

27

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

Na tjednoj razini dohotka od 150 $, postoji 10 obitelji koje tjedno troše između 12 i 28 $. Prosječno tih 10 obitelji troši 20,90 $ tjedno. Podaci iz tablice 2 unose se u dijagram rasipanja. Slika 5: Dijagram rasipanja

Tjedni izdaci prikazani su na ordinati, dok je tjedni dohodak prikazan na apscisi. Kako dijagram rasipanja pokazuje za svaku danu razinu tjednog dohotka postoji više vrijednosti za Y. Što prikazuje dijagram rasipanja? Dijagram rasipanja pokazuje opću tendenciju prema kojoj Y raste sa svakim porastom X: obitelji sa višim dohotkom više i troše. Trend rasta uočljiviji je ukoliko se promatraju srednje vrijednosti za Y u odnosu na vrijednosti X. Te su srednje vrijednosti nazvane očekivanjima ili očekivanim vrijednostima. Ukoliko se očekivane vrijednosti Y povežu pravcem dobije se regresijska krivulja populacije. Regresijska funkcija populacije daje srednju (očekivanu) vrijednost zavisne varijable (izdaci) koja odgovara svakoj pojedinoj vrijednosti nezavisne varijable (tjedni dohodak). Stoga, na razini tjednog dohotka od 200 $, prosječni tjedni izdaci iznose 24,40 $. Ukratko RFP je krivulja koja ukazuje na povezanost srednje vrijednosti varijable Y sa svakom pojedinom vrijednošću nezavisne varijable X populacije. Kako je RFP aproksimativno linearna, može se matematički izraziti slijedećom funkcijom: 𝐸(𝑌|𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖

(22)

koja predstavlja matematičku funkciju pravca. Izraz 𝐸(𝑌|𝑋𝑖 )predstavlja očekivanje ili očekivanu vrijednost Y. Očekivane vrijednosti varijable Y za danu vrijednost varijable X prikazane su u posljednjem retku tablice 2. Potrebno je napomenuti da je 𝐸(𝑌|𝑋𝑖 ) funkcija od Xi, što znači da zavisnost Y od X, tehnički nazvana regresija Y na X, može biti jednostavno definirana kao srednja vrijednost distribucije vrijednosti varijable Y za danu vrijednost varijable X. Drugim riječima, regresijska krivulja populacije je pravac koji prolazi kroz očekivanu vrijednost varijable Y, matematički se izražava izrazom (22) a naziva se RFP jer predstavlja regresijsku krivulju populacije kao cjeline. Parametri 0 i 1 predstavljaju regresijske koeficijente. 0 predstavlja odsječak na osi ordinate (intercept), a 1 koeficijent nagiba koji mjeri razinu promjene u očekivanoj vrijednosti Y za jedinicu promjene varijable X. Pretpostavimo da 1=0,6. Taj se podatak interpretira kako slijedi: ako tjedni dohodak poraste za 1 $, prosječno će tjedni izdaci porasti za 60 centi. Što je s 0? 0 predstavlja srednju vrijednost Y ako X=0. Pokazuje srednju vrijednost izdataka u slučaju da tjedni dohodak iznosi nula.

28

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

Statistička ili stohastička specifikacija regresijske funkcije populacije RFP prikazuje očekivanu vrijednost zavisne varijable koja odgovara pojedinim vrijednostima nezavisne varijable. Iz tablice 2 vidljivo je, na primjer da za X=300 $ prosječna vrijednost varijable Y iznosi 30,30 $. Ali, ako nasumice odaberemo jednu obitelj između 10 njih na određenoj razini dohotka, izdaci neće nužno odgovarati prosječnom iznosu. Ako odaberemo desetu obitelj na razini dohotka X=300 $, vidimo da njeni izdaci iznose 23 $, što je ispod prosjeka dohodovnoga razreda. Prva obitelj istoga dohodovnoga razreda troši 42 $, što je pak iznad prosjeka. Kako dakle, objasniti pojedinačne izdatke u odnosu na razinu dohotka? Pojedinačni izdaci jednaki su prosjeku dohodovnoga razreda  određena količina. Matematički se navedeno može izraziti na slijedeći način: 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖

(23)

gdje je, ui stohastička ili slučajna greška ili odstupanje. Slučajno odstupanje je slučajna varijabla, stoga se njene vrijednosti ne mogu a priori poznavati ili kontrolirati, a karakterizirana je distribucijom vjerojatnosti (primjerice normalnom ili tdistribucijom). Pojedinačni izdaci i-te obitelji, koji odgovaraju određenom raspoloživom dohotku predstavljaju zbroj dviju komponenti: Determinističke komponente (𝛽0 + 𝛽1 𝑋𝑖 ) koja predstavlja prosječni izdatak u i-toj podpopulaciji, to je točka na regresijskoj krivulji populacije koja odgovara danoj razini dohotka.  Stohastičke komponente ui (nesistematična ili slučajna komponenta, slučajno odstupanje ili slučajna greška) koja je determinirana drugim čimbenicima nego što je to dohodak. Objašnjenje navedenoga vidljivo je iz sljedeće slike. 

Slika 6: Tjedni izdaci i regresijska linija populacije

Na razini dohotka X=150 $, jedna obitelj troši 25 $ tjedno, dok prosječni izdaci na istoj razini dohotka iznose 20,90 $. Stoga, izdaci navedene obitelji prelaze sustavnu komponentu modela za 4,10 $, a njena u komponenta iznosi +4,10 jedinica. S druge strane, na razini dohotka X=300 $, druga slučajno odabrana obitelj troši 24 $, dok prosječni izdaci za danu razinu dohotka iznose 30,30 $. Izdaci navedene obitelji manji su od sustavne komponente modela za 6,30 $, a njena u komponenta iznosi -6,30 jedinica.

29

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

Izraz (23) naziva se stohastička (statistička) regresijska funkcija populacije, dok se izraz (22) naziva deterministička ili nestohastička regresijska funkcija populacije. Deterministička regresijska funkcija populacije prikazuje odnos očekivanih vrijednosti varijable Y u odnosu na određene razine dohotka (nezavisnu varijablu X). Stohastička regresijska krivulja populacije pokazuje kako variraju pojedinačni izdaci u odnosu na prosječnu vrijednost zbog prisutnosti slučajnog odstupanja u. U svezi s osnovnim osobinama slučajnog odstupanja potrebno je napomenuti sljedeće: 1. Slučajno odstupanje može prikazivati utjecaj onih varijabli koje nisu eksplicite uključene u model. Primjer, u odnosu izdataka i raspoloživog dohotka, slučajno odstupanje može prikazivati utjecaj čimbenika kao što su: stupanj obrazovanja, zaposlenost članova obitelji, broj članova obitelji, područje stanovanja, prijašnji dohoci, sklonost investiranju, sklonost štednji i dr. 2. Slučajna komponenta može biti posljedica pogrešaka u mjerenju. Primjerice podaci za raspoloživi dohodak mogu biti zaokruženi, a podaci za izdatke nepravilno prikazani zbog grešaka u prikupljaju samih podatka. 3. Iako je poznato da druge varijable utječu na Y, moguće ih je inkorporirati u slučajnu komponentu, jer je njihov zajednički utjecaj malen i nesistematičan. 4.4.2. REGRESIJSKA FUNKCIJA UZORKA

Postavlja se pitanje kako procijeniti regresijsku funkciju populacije iz izraza (22), odnosno dobiti vrijednosti parametara. Ako imamo podatke iz tablice 2, podatke za cijelu populaciju, problem je jednostavno rješiv: potrebno je pronaći očekivanu vrijednost varijable Y (prosječnih populacijskih izdataka) za danu razinu dohotka te spojiti dobivene sredine. No, u praksi rijedak je slučaj da se raspolaže s podacima cijele populacije, najčešće se raspolaže s podacima uzorka odabranog iz neke populacije. Potrebno je stoga, ocijeniti regresijsku funkciju populacije na temelju podataka iz uzorka. Pretpostavimo da umjesto podataka za cijelu populaciju iz tablice 2 posjedujemo podatke iz tablica 3 i 4, koje predstavljaju dva nasumice odabrana uzorka iz populacije prikazane u tablici 2. Tablica 3: Prvi slučajni uzorak iz tablice 2

Y X

18 150

24 175

26 200

23 225

30 250

27 275

34 300

35 325

33 350

40 375

Tablica 4: Drugi slučajni uzorak iz tablice 2

Y X

23 150

18 175

24 200

25 225

28 250

27 275

31 300

29 325

33 350

34 375

Za razliku od tablice 2, u tablicama 3 i 4 za svaki je nivo dohotka prikazana samo jedna određena vrijednost izdataka. Postavlja se pitanje da li je moguće procijeniti prosječne izdatke koji odgovaraju pojedinim razinama dohotka u populaciji na temelju dva slučajno odabrana uzorka? Drugim riječima, može li se ocijeniti regresijska funkcija populacije temeljem podataka iz uzorka? Kako se može pretpostaviti, RFP ne može se precizno odrediti zbog postojanja sampling pogrešaka. Temeljem podataka iz tablica 3 i 4 crta se dijagram rasipanja. Kroz točke koje predstavljaju parove vrijednosti na dijagramu rasipanja, povlači se pravac koji dovoljno dobro odgovara pojedinim točkama (slika 7). Takav pravac naziva se regresijski pravac uzorka (RPU).

30

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

Slika 7: Regresijski pravci uzorka 1 (tablica 3) i uzorka 2 (tablica 4)

No, koji od dva regresijska pravca uzorka najbolje odgovara regresijskom pravcu populacije? Svaki pojedini regresijski pravac uzorka tek je aproksimacija regresijskog pravca populacije, i to zbog postojanja sampling varijacija. Općenito postoji k različitih regresijskih pravaca uzorka za k različitih uzoraka. Naposljetku, analogno regresijskoj funkciji populacije koja određuje regresijski pravac populacije, moguće je odrediti i regresijsku funkciju uzorka (RFU) koja predstavlja regresijski pravac uzorka, a može se pisati kao: 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖

(24)

gdje je, 𝑌̂𝑖 𝛽̂0 𝛽̂1

 ocjenjivač4 od 𝐸((𝑌|𝑋𝑖 )), ocjenjivač očekivane vrijednosti populacije  ocjenjivač od 𝛽0  ocjenjivač od 𝛽1

Pogledom na dijagram rasipanja jasno je vidljivo da svi podaci iz uzorka ne leže na regresijskom pravcu uzorka. Stoga, kako za slučaj stohastičke regresijske funkcije populacije, moguće je razviti i stohastičku alternativu izraza (23): 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖 + 𝑒𝑖

(25)

gdje je ei ocjenjivač od ui. Simbolom ei predstavlja rezidual. Konceptualno, rezidual ei je analogan slučajnom odstupanju ui, te predstavlja razlike između stvarnih vrijednosti varijable Y i procijenjenih vrijednosti iz regresijskog uzorka. Stoga, vrijedi: 𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖

(26)

Rezimirajući do sada navedeno, osnovni cilj regresijske analize je procijeniti regresijsku funkciju populacije 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖 temeljem regresijske funkcije uzorka 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖 + 𝑒𝑖

4

Ocjenjivač ili statistika je formula koja sugerira način procjenjivanja populacijskih parametara. Određena numerička vrijednost dobivena ocjenjivačem predstavlja ocjenu.

31

II. DIO REGRESIJSKA ANALIZA

4. Poglavlje: Regresijski model s dvije varijable – Temeljni pojmovi -

jer je najčešće analiza temeljena na uzorcima, a ne na podacima iz cijele populacije. No, zbog postojanja sampling varijacija, procjena regresijske funkcije populacije, temeljena na regresijskoj funkciji uzorka, tek je aproksimacija. Takva je aproksimacija prikazana na sljedećoj slici. Slika 8: Regresijski pravac populacije i regresijski pravac uzorka 𝑅𝐹𝑈: 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖 𝑅𝐹𝑃: 𝐸(𝑌|𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖

Potrebno je napomenuti da se ne analiziraju 0, 1 i ui, već njihovi ocjenjivači 𝛽̂0 , 𝛽̂1 i ei dobiveni iz uzorka. Za dani Xi, prikazan na slici 8 postoji jedno Yi opažanje iz uzorka. U terminima regresijske funkcije uzorka, opaženi Yi može biti izražen kao: 𝑌𝑖 = 𝑌̂𝑖 + 𝑒𝑖

(27)

ili u terminima regresijske funkcije populacije kao: 𝑌𝑖 = 𝐸(𝑌|𝑋𝑖 ) + 𝑢𝑖

(28)

Na slici 8 𝑌̂1 podcjenjuje stvarnu očekivanu vrijednost 𝐸(𝑌|𝑋𝑖 ) za prikazani X1. Općenito za svaki Y koji se nalazi desno od točke A na slici 8, regresijska funkcija uzorka će precijeniti stvarnu regresijsku funkciju populacije.

32

II. DIO REGRESIJSKA ANALIZA

5. Poglavlje: Ocjenjivanje parametara regresije

5. POGLAVLJE OCJENJIVANJE PARAMETARA REGRESIJE

P

od pretpostavkom da je regresijska krivulja uzorka tek aproksimacija regresijske funkcije populacije, može li se iznaći metoda ili tehnika koja bi navedenu aproksimacija približila, što je više moguće stvarnim podacima. Drugim riječima, kako konstruirati regresijsku funkciju uzorka na način da 𝛽̂0 , 𝛽̂1 budu što bliži vrijednostima 𝛽0 , 𝛽1 ? Kako će se kasnije pokazati, može se pronaći regresijska funkcija uzorka koja najbolje preslikava regresijsku funkciju populacije. Zadatak regresijske analize je ocijeniti regresijsku funkciju populacije (RFP) temeljem regresijske funkcije uzorka (RFU). Kako se procjenjuje RFP te kako se određuje je li procijenjena RFP dobra ocjena stvarnih vrijednosti? Problem ocjenjivanja parametara regresijskog modela može se promatrati kao problem ocjenjivanja parametara distribucije vjerojatnosti zavisne varijable Y. Taj se problem može riješiti pomoću određenog broja različitih metoda ocjenjivanja. Neke od tih metoda su:   

metoda najmanjih kvadrata (Method of Ordinary Least Squares Estimators, OLS) najbolje linearno nepristrano ocjenjivanje (Best Linear Unbiased Estimator, BLUE ) metoda maksimalne vjerodostojnosti (Method of Maximum Likelihood Estimator, MLE)

Iako postoji više metoda dobivanja regresijske funkcije uzorka, kao ocjenjivača stvarne regresijske funkcije populacije, u regresijskoj analizi najčešće se koristi metoda najmanjih kvadrata (Method of Ordinary Least Square, OLS metoda). METODA NAJMANJIH KVADRATA

Metodu najmanjih kvadrata otkrio je Carl Friedrich Gauss, početkom 19. stoljeća. Cilj joj je odrediti jednadžbu pravca 𝑌̂ koja će se najbolje prilagoditi empirijskim podacima. Razmotrimo regresijski model s dvije varijable: 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖

(29)

Kako se regresijska funkcija populacije ne može izravno odrediti, poseže se za njenom ocjenom temeljem regresijske funkcije uzorka: 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖 + 𝑒𝑖

(30)

koja se može pisati i kao: 𝑒𝑖 = 𝑠𝑡𝑣𝑎𝑟𝑛𝑖 𝑦𝑖 − 𝑜𝑐𝑖𝑗𝑒𝑛𝑗𝑒𝑛𝑖 𝑦𝑖 = 𝑦𝑖 − 𝑦̂𝑖 Zbog statističkih razloga ne minimizira se ∑ 𝑒𝑖 već ∑ 𝑒𝑖2 , te se dobije: 2 2 𝑚𝑖𝑛 ∑ 𝑒𝑖2 = ∑(𝑌𝑖 − 𝑌̂𝑖 ) = ∑(𝑌𝑖 − 𝛽̂0 − 𝛽̂1 𝑋𝑖 )

(31)

Za dane vrijednosti Y i X iz uzorka, suma kvadrata reziduala, funkcija je parametara 𝛽̂0 𝑖 𝛽̂1. Za različite vrijednosti navedenih parametara, dobiju se i različite vrijednosti reziduala, te stoga, i različite vrijednosti sume njihovih kvadrata. No, potrebno je odabrati one vrijednosti ocjenjivača koje će dati najmanju moguću vrijednost sume kvadrata reziduala.

33

II. DIO REGRESIJSKA ANALIZA

5. Poglavlje: Ocjenjivanje parametara regresije

Vrijednosti od 𝛽̂0 𝑖 𝛽̂1 koje minimiziraju vrijednost sume kvadrata reziduala dobiju se rješavanjem dviju simultanih jednadžbi: ∑ 𝑌𝑖 = 𝑛𝛽̂0 + 𝛽̂1 ∑ 𝑋𝑖

(32)

∑ 𝑌𝑖 𝑋𝑖 = 𝛽̂0 ∑ 𝑋𝑖 + 𝛽̂1 ∑ 𝑋𝑖2

(33)

gdje je n veličina uzorka. Jednadžbe (32) i (33) nazivaju sustav normalnih jednadžbi najmanjih kvadrata. U navedenim jednadžbama nepoznanice su 𝛽̂0 𝑖 𝛽̂1 , dok su vrijednosti suma, kvadrata suma varijabli Y i X poznate. Rješavanjem ovoga sustava od dvije simultane jednadžbe dolazi se od izraza prema kojima se određuju vrijednosti 𝛽̂0 𝑖 𝛽̂1 : 𝛽̂1 =

𝑛 ∑ 𝑋𝑖 𝑌𝑖 − ∑ 𝑋𝑖 ∑ 𝑌𝑖 ∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) ∑ 𝑥𝑖 𝑦𝑖 = = ∑(𝑋𝑖 − 𝑋̅)2 ∑ 𝑥𝑖2 𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2 𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋̅

(34)

(35)

gdje je: 𝑋̅ i 𝑌̅ 𝑥𝑖 𝑦𝑖

 jednostavne aritmetičke sredine od X i Y  (𝑋𝑖 − 𝑋̅)  (𝑌𝑖 − 𝑌̅)

NAPOMENA: Prema konvenciji mala slova označavaju odstupanja podataka od aritmetičke sredine.

Ocjenjivači iz izraza (34) i (35) nazivaju se OLS ocjenjivači, budući da su dobiveni metodom najmanjih kvadrata. Neke od karakteristika OLS ocjenjivača jesu: 1. Regresijska funkcija uzorka dobivena OLS metodom prolazi kroz srednje vrijednosti varijable X i Y, te se može pisati: (36) 𝑌̅ = 𝛽̂0 + 𝛽̂1 𝑋̅ 2. Srednja vrijednost reziduala 𝑒̅ = (∑ 𝑒𝑖 ⁄𝑛) uvijek iznosi nula. 3. Suma umnoška reziduala ei i vrijednosti nezavisne varijable X uvijek iznosi nula: navedene dvije varijable nisu korelirane. Simbolima: ∑ 𝑒𝑖 𝑋𝑖 = 0. 4. Suma umnoška reziduala ei i ocijenjene vrijednosti jednaka je nuli. Simbolima: ∑ 𝑒𝑖 𝑌̂𝑖 = 0

34

II. DIO REGRESIJSKA ANALIZA

5. Poglavlje: Ocjenjivanje parametara regresije

PRIMJER 6

̂ 0 𝑖 𝛽̂ 1 promotrimo podatke iz tablice 3. Izračuni zahtijevaju Za određivanje vrijednosti ocjenjivača 𝛽 upotrebu izraza (34) i (35). U nastavku je prikazana pomoćna tablica izračuna. Tablica 5: Pomoćna tablica za ocjenu parametara iz podataka prikazanih u tablici 3. Y 18 24 26 23 30 27 34 35 33 40 290

X 150 175 200 225 250 275 300 325 350 375 2625

𝑦𝑖 -11 -5 -3 -6 1 -2 5 6 4 11 0

𝑥𝑖 -112,5 -87,5 -62,5 -37,5 -12,5 12,5 37,5 62,5 87,5 112,5 0

𝑥𝑖 𝑦𝑖 1237,5 437,5 187,5 225 -12,5 -25 187,5 375 350 1237,5 4200

𝑥𝑖2 12656,25 7656,25 3906,25 1406,25 156,25 156,25 1406,25 3906,25 7656,25 12656,25 51562,5

𝑌̂𝑖 19,83636 21,8727 23,9090 25,9454 27,9818 30,0181 32,0545 34,0909 36,1272 38,1636 290

𝑒𝑖 -1,8364 2,1273 2,0909 -2,9455 2,0182 -3,0182 1,9455 0,9091 -3,1273 1,8364 0,00000

𝑒𝑖2 3,37223 4,52528 4,37190 8,67570 4,07305 9,10942 3,78479 0,82644 9,77983 3,37223 51,8909

𝑒𝑖 𝑥𝑖 -275,455 372,2727 418,1818 -662,727 504,5455 -830 583,6364 295,4545 -1094,55 688,6364 0

𝑒𝑖 𝑌̂𝑖 -36,4268 46,52926 49,99174 -76,4212 56,4724 -90,6003 62,36066 30,99174 -112,98 70,08231 0

𝑋𝑖2 22500 30625 40000 50625 62500 75625 90000 105625 122500 140625 740625

NAPOMENA

𝑋̅ =262,5 𝑌̅=29 𝑥𝑖= (𝑋𝑖 − 𝑋̅) 𝑦𝑖 = (𝑌𝑖 − 𝑌̅) Iz podataka tablice 5 i izraza (34) i (35) računaju se regresijski parametri 𝛽̂0 𝑖 𝛽̂1 :

𝛽̂1 =

∑ 𝑥𝑖 𝑦𝑖 4200 = = 0,0814 2 ∑ 𝑥𝑖 51562,5

𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋̅ = 29 − 0,0814 ∙ 262,5 = 7,6182 Uvrštavanjem u izraz (30) dobije se sljedeća regresija uzorka dohotka i izdataka: 𝑌̂𝑖 = 7,6182 + 0,0814𝑋𝑖

(37)

gdje Y predstavlja tjedne izdatke, a X tjedni raspoloživi dohodak. Regresijska krivulja dobivena temeljem uzorka prikazana je na sljedećoj slici. Slika 9: Regresijski pravac temeljen na podacima iz tablice 3 40 y = 7,6182+0,0815x

35 30

Y

25 20 15 10 5 0 0

50

100

150

200

250

300

350

400

X

Interpretacija procijenjene funkcije izdataka: Koeficijent nagiba iznosi 0,0814, što znači da, ako raspoloživi tjedni dohodak poraste za 1 $, prosječni izdaci porasti će za oko 8 centi tjedno. Vrijednost konstantnog člana od 7,6182, govori da, kada bi raspoloživi tjedni dohodak iznosio 0 , prosječni tjedni izdaci iznosili bi oko 7,62 $. Često konstanti član nema velikoga ekonomskog značenja.

35

II. DIO REGRESIJSKA ANALIZA

5. Poglavlje: Ocjenjivanje parametara regresije

PRIMJER 7

Analiza podataka modelom jednostavne linearne regresije programskom potporom Gretl. Analizira se prihod od prodaje proizvoda (u 000 HRK) u zavisnosti o izdacima za promidžbene aktivnosti u trgovinama na malo (u 000 HRK). Odabran je model jednostavne linearne regresije. Varijable modela su: y = prihodi od prodaje proizvoda, u HRK, zavisna varijabla x = izdaci za promidžbene aktivnosti, u HRK, nezavisna varijabla Tablica 6: Izdaci za promidžbene aktivnosti i prihodi od prodaje Izdaci za promidžbene aktivnosti (𝑥𝑖 )

Prihod (𝑦𝑖 )

171 190 197 200 204 224 290 374 389 423 436 546 3644

3212 4284 4145 4096 4632 4741 5321 6863 7173 8270 8300 9435 70472

Prvi korak u regresijskoj analizi je crtanje dijagrama rasipanja (engl. scatter plot), tj. grafičkoga prikaza točaka 𝑇𝑖 (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = 1, 2, … , 𝑛 u prvom kvadrantu pravokutnog koordinatnog sustava. Na horizontalnoj osi ističe se dio aritmetičkoga mjerila koji obuhvaća opažene vrijednosti varijable x, a na vertikalnoj dio aritmetičkoga mjerila koji obuhvaća opažene vrijednosti varijable y. Dijagram rasipanja omogućuje da se uoči oblik veze među odabranim varijablama, smjer povezanosti te jakost povezanosti.

Prihodi

Slika 10: Dijagram rasipanja

10000 9000 8000 7000 6000 5000 4000 3000 0

100

200

300

400

500

600

Izdaci

Temeljem dijagrama rasipanja zaključuje se da je veza između x i y linearna (jer su točke raspoređene blizu nekoga zamišljenoga pravca), pozitivnoga je smjera i jaka. Realno je dakle za pretpostaviti da se povezanost prodaje proizvoda i izdataka za promidžbene aktivnosti u trgovinama na malo može opisati modelom: 𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀. Kako bi se odredio procijenjeni model: 𝑦̂ = 𝛽̂0 + 𝛽̂1 𝑥 + 𝑒𝑖

36

II. DIO REGRESIJSKA ANALIZA

5. Poglavlje: Ocjenjivanje parametara regresije

potrebno je odrediti vrijednosti regresijskih koeficijenata 𝛽̂0 i 𝛽̂1 . Za vrijednosti iz tablice 6 dobiveni su sljedeći rezultati: 12 12 12 2 ∑12 𝑖=1 𝑥𝑖 = 3644 , ∑𝑖=1 𝑦𝑖 = 704724, ∑𝑖=1 𝑥 = 1 278 380, ∑𝑖=1 𝑥𝑖 𝑦𝑖 = 24 174 558, pa je:

𝑥̅ =

∑12 𝑖=1 𝑥𝑖 𝑛

=

3644 12

= 303,6667 i 𝑦̅ =

∑12 𝑖=1 𝑦𝑖 𝑛

=

70472 12

= 5872,6667 .

Uvrštavanjem konkretnih vrijednosti u izraze (34) i (35) dobiva se da je: 𝛽̂1 = i

∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦 ̅̅̅ 24174558 − 12 ∙ 303,6667 ∙ 5872,667 = = 16,14819 ∑𝑛𝑖=1 𝑥𝑖2 − 𝑛𝑥̅ 2 1278380 − 12 ∙ 303,66672 𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅ = 5872,667 − 16,14819 ∙ 303,6667 = 968,99930.

U konkretnom slučaju, procijenjena regresijska jednadžba glasi: 𝑦̂ = 968,99930 + 16,14819𝑥. Regresijski koeficijent 𝛽̂1 = 16,14819 pokazuje da će se na temelju procijenjenoga modela, za povećanje izdataka za promidžbene aktivnosti u iznosu od tisuću kuna prihod u prosjeku povećati za 16,14819 tisuća kuna. Konstantni član u modelu rijetko se interpretira i često nema suvislo značenje. Njegova uloga u modelu povezana je s jednadžbom regresijskoga pravca. Naime, kada bi regresijski pravac bio definiran bez konstantnoga člana, geometrijski bi to značilo da pravac uvijek prolazi ishodištem, što je često nerealna pretpostavka. U konkretnom slučaju vrijednost 𝛽̂0 = 968,9993 teorijski označava očekivanu vrijednost prihoda ako izdaci za promidžbene aktivnosti iznose 0 kuna. Primjenom programskog paketa Gretl dobiveni su između ostalih i sljedeći rezultati. Tablica 7: Izdaci za promidžbene aktivnosti i prihodi od prodaje

Očitavanjem rezultata (eng. Coefficient) programskog ispisa dobiva se procijenjena jednadžba. Regresijske vrijednosti i rezidualna odstupanja Ako se za svaki 𝑖 = 1, 2, … , 𝑛 u procijenjenu regresijsku jednadžbu uvrste stvarne vrijednosti nezavisne varijable 𝑥𝑖 , dobivaju se regresijske vrijednosti 𝑦̂𝑖 zavisne varijable y. Prva se regresijska vrijednost 𝑦̂𝑖 dobiva uvrštavanjem prve vrijednosti varijable x koja iznosi 𝑥1 = 171, pa je: 𝑦̂ = 𝛽̂0 + 𝛽̂1 𝑥 𝑦̂1 = 968,99930 + 16,14819 ∙ 171 = 3730,34. Analogno se dobivaju i ostale regresijske vrijednosti. Regresijske vrijednosti 𝑦̂𝑖 procjene su stvarnih vrijednosti zavisne varijable 𝑦𝑖 . U konkretnom se primjeru 𝑦̂𝑖 interpretira na sljedeći način: Za vrijednosti izdataka za promidžbene aktivnosti od 𝑥1 = 171 tisuće kuna očekivana vrijednost prihoda iznosi 𝑦̂1 = 3730,34 tisuće kuna. Stvaran prihod od prodaje 𝑦1 , za vrijednost izdataka od 𝑥1 = 171 tisuće kuna, je 𝑦1 = 3212 tisuće kuna. Razlika je rezidualno odstupanje 𝜀̂1 . Rezidualna odstupanja 𝜀̂𝑖 razlike su stvarnih vrijednosti zavisne varijable od procijenjenih vrijednosti te predstavljaju procjene

37

II. DIO REGRESIJSKA ANALIZA

5. Poglavlje: Ocjenjivanje parametara regresije

slučajne varijable 𝜀𝑖 u modelu. Prvo rezidualno odstupanje pokazuje da je prema regresijskoj jednadžbi, za vrijednost izdataka od 𝑥1 = 171 tisuće kuna, prihod od prodaje „precijenjen“ za 518,340 tisuća kuna. Stvarne vrijednosti prihoda, pripadne regresijske vrijednosti i rezidualna odstupanja dani su u sljedećoj tablici. Tablica 8: Regresijske vrijednosti i rezidualna odstupanja (Ispis Gretl)

38

II. DIO REGRESIJSKA ANALIZA

5. Poglavlje: Ocjenjivanje parametara regresije

ZADACI ZA VJEŽBU 1.

2.

3.

Analizira se per capita raspoloživi dohodak po stanovniku i osobna potrošnja po stanovniku u SAD-u. Podaci su dani po godinama razdoblja 2000-2014. Vrijednost dohotka i potrošnje izražene su u stalnim cijenama (u dolarima 2000. godine). Podaci su dani u sljedećoj tablici. Godina Per capita osobna potrošnja Per capita raspoloživi dohodak 2000. 3 277 3 665 2001. 3 355 3 752 2002. 3 511 3 860 2003. 3 623 4 808 2004. 3 566 4 009 2005. 3 609 4 051 2006. 3 774 4 158 2007. 3 924 4 280 2008. 4 057 4 441 2009. 4 121 4 512 2010. 4 093 4 487 2011. 4 131 4 561 2012. 4 146 4 555 2013. 4 303 4 670 2014. 4 490 4 941 Procijenite parametre u modelu metodom najmanjih kvadrata. Dani su podaci: Xi 1 4 3 5 5 4 Yi 3 5 2 7 8 4 a) Ocijenite linearni model pomoću metode najmanjih kvadrata. b) Pretpostavimo da su poznate stvarne vrijednosti parametara: 0= 0 i 1= 1,4. Izračunajte vrijednosti reziduala i vrijednosti slučajnih odstupanja za svako od šest opažanja. Zadani su podaci bruto društvenog proizvoda per capita (GDPpc) u 000 US $ i % zaposlene radne snage u poljoprivredi za 10 zemalja: ZEMLJA A B C D E F G H I J GDPPC 5 7 7 8 8 12 10 9 8 9 % ZAPOSLENIH U POLJOPRIVREDI 8 9 9 8 10 3 5 5 6 6 a) Metodom najmanjih kvadrata izračunajte parametre linearne funkcije u kojoj ćete ocijeniti vezu između % zaposlenih u poljoprivredi (zavisna varijabla Z) i razine GDPpc (nezavisna varijabla G). b) Ako je GDPpc neke zemlje točno 6 000 $, koliki se očekuje postotak zaposlenih u poljoprivredi?

RJEŠENJA ZADATAKA 1. 2.

3.

Model s procijenjenim parametrima glasi: 𝑌̂𝑖 = −343,71033 + 0,9816156𝑋𝑖 a) 𝑌̂𝑖 = 0,411765 + 1,20588𝑋𝑖 b) ei 1,382 -0,235 -2,029 0,559 1,559 ui 1,6 -0,6 -2,2 0 1 a) 𝑍̂𝑖 = 14,5794 − 0,925234𝐺𝑖 b) 9,028%

-1,235 -1,6

39

II. DIO REGRESIJSKA ANALIZA

6. Poglavlje: Klasični linearni regresijski model

6. POGLAVLJE

KLASIČNI LINEARNI REGRESIJSKI MODEL

N

akon procjene parametara regresijskog modela pristupa se testiranju hipoteza te iznalaženju odgovora na pitanje koliko je dobra procijenjena regresijska funkcija. Potrebno je naime, prosuditi da li je procijenjena regresijska krivulja doista dobra procjena stvarne regresijske funkcije populacije. Kako možemo biti sigurni na temelju tek jednog uzorka da je procijenjena regresijska funkcija doista dobra aproksimacija stvarne regresijske funkcije populacije? Kako dobivene ocjene 𝛽̂0 𝑖 𝛽̂1 predstavljaju ocjene iz uzorka za stvarne vrijednosti parametara 𝛽0 𝑖 𝛽1 potrebno je testirati njihovu statističku pouzdanost. Činjenica da se za dobivanje ocjena parametara koristi samo jedan uzorak iz populacije znači da je svaki ocijenjeni parametar upravo ocjena. Ocjena parametara poprima različitu vrijednost ako je izračunata iz različitog uzorka te varira od uzorka do uzorka. Cilj je stoga, dobiti nabolje (s minimalnom varijancom) linearne nepristrane ocjene parametara. Prema RFP, varijabla Y zavisi od objasnidbenih varijabli X1, X2,…, Xk i slučajnih odstupanja u. Sve dok se ne odredi način kako trebaju biti generirane varijable Xk i u, ne može se ispitati statistička značajnost ocijenjenih parametara. Potrebno je napomenuti da pretpostavka o distribuciji vjerojatnosti slučajnog odstupanja (pri kojoj se ustanovljuju distribucije ocjena parametara) nije nužna da bi se parametri računski odredili. Također, ocjene parametara dobivene metodom najmanjih kvadrata imaju optimalna svojstva bez obzira na pretpostavku normalnosti grešaka, ukoliko su ispunjene ostale pretpostavke o grešci modela. No, za dobivanje intervalnih ocjena parametara i testiranje statističkih hipoteza o njima, potrebno je pretpostaviti da u ima normalnu distribuciju. Poznato je da vrijednosti od Yi zavise od vrijednosti Xi i vrijednosti ui. Pretpostavili smo da su vrijednosti nezavisne varijable poznate te ih smatramo nestohastičnim. Slučajno odstupanje slučajna je varijabla. Zbog dodavanja stohastičke komponente nezavisnoj varijabli koja nije stohastička, za dobivanje vrijednosti varijable Y, i ona postaje stohastička. To znači da, osim ako nismo voljni pretpostaviti način nastajanja slučajne varijable, nećemo biti u stanju odrediti koliko je dobra regresijska funkcija uzorka kao ocjena regresijske funkcije populacije. Testiranje hipoteza nemoguće je ukoliko se ne postave određene pretpostavke o slučajnoj varijabli. Radi se o definiranju postavki klasičnog linearnog regresijskog modela (CLRM – Classical Linear Regression Model). Model je 1821. godine definirao C. F. Gauss, a predstavlja standard prema kojemu se utvrđuju rezultati primijenjene regresijske analize. Ako pretpostavke nisu ispunjene, rezultati su netočni i obmanjujući. Pretpostavke Gaussovog klasičnog standardnog linearnog regresijskog modela su slijedeće:       

Korektna specifikacija i linearnost regresijskog modela Sredina jednaka nuli Odsutnost autokorelacije Homoskedastičnost Odsutnost multikolinearnosti Nestohastičnost varijable X Normalnost slučajnog odstupanja

40

II. DIO REGRESIJSKA ANALIZA 1.

6. Poglavlje: Klasični linearni regresijski model

REGRESIJSKI MODEL KOREKTNO JE SPECIFICIRAN TE JE LINEARAN U PARAMETRIMA I ODSTUPANJIMA; MOŽE, ALI NE MORA BITI LINEARAN U VARIJABLAMA

Ova pretpostavka znači uključivanje u model svih relevantnih objasnidbenih varijabli, te odabir odgovarajućeg funkcijskog oblika. Linearnost modela u parametrima omogućava dobivanje linearnih ocjena. Nelinearnost u varijablama rješava se transformacijom (primjenom logaritama ili inverznih funkcija). 2.

SREDINA JEDNAKA NULI: ZA DANE VRIJEDNOSTI VARIJABLE X, OČEKIVANA VRIJEDNOST SLUČAJNOG ODSTUPANJA JEDNAKA JE NULA

Simbolima: (38)

𝐸(𝑒𝑖 ) = 0

Slučajno odstupanje predstavlja sve one čimbenike koji nisu eksplicite uvršteni u model te se pretpostavlja da nemaju sistemski utjecaj na zavisnu varijablu, pa se pozitivni i negativni utjecaji poništavaju. Što znači da je njihov ukupni utjecaj na zavisnu varijablu u prosjeku jednak nuli. Za dane vrijednosti od X, očekivanje slučajnog odstupanja iznosi 0 (slika 11). Slika 11: Distribucija slučajnog odstupanja

3.

ODSUTNOST AUTOKORELACIJE: VRIJEDNOSTI SLUČAJNE VARIJABLE u MEĐUSOBNO SU NEKORELIRANE SLUČAJNE VELIČINE, TJ. NJIHOVA JE KOVARIJANCA JEDNAKA NULI.

Simbolima:

cov( ui , u j )  0

i j

(39) To znači da među komponentama varijable u ne postoji autokorelacija (serijska korelacija). Problem autokorelacije karakterističan je za regresijske modele koji se ocjenjuju na bazi vremenskih nizova jer ekonomske varijable najčešće pokazuju kroz vrijeme pozitivnu ili negativnu tendenciju kretanja vrijednosti. Posljedica kršenja ove pretpostavke je da vrijednosti varijable u nisu slučajne već korelirane i to ostavlja posljedice na ocijenjene parametre modela. Pri navedenoj pretpostavci, činjenica da je, recimo, danas proizvodnja veća od očekivane ne bi trebala uzrokovati veću (ili manju) od očekivane proizvodnje sutra. Slika 12: Autokorelacija

41

II. DIO REGRESIJSKA ANALIZA

6. Poglavlje: Klasični linearni regresijski model

Slika (a) prikazuje neautokorelirana odstupanja, slika (b) pozitivnu autokorelaciju, a slika (c) negativnu autokorelaciju. 4.

HOMOSKEDASTIČNOST: VARIJANCA SLUČAJNE VARIJABLE u KONSTANTNA JE I JEDNAKA 2

Simbolima:

var( ui )   2

(40)

To znači da odstupanja imaju svojstvo jednake raspršenosti, odnosno homoskedastičnosti (homoskedastičnost: homo: jednak, scedastic: varijanca). Geometrijski je ova pretpostavka prikazana na sljedećoj slici. Slika 13: Homoskedastičnost (jednaka varijanca) i heteroskedastičnost (različita varijanca)

Svako odstupanje ima istu varijancu σ2 koja je konstantna i čija je vrijednost nepoznata. Ova pretpostavka isključuje mogućnost da bi raspršena odstupanja bila veća za veće nego za manje vrijednosti varijable X. Ako ova pretpostavka nije ispunjena, odstupanja su različito raspršena i kažemo da je prisutna heteroskedastičnost (slika 13 (b)). To znači da varijanca pogreške zavisi o opažanju o kojem je riječ. Reprezentativnost modela ovisi o tome kako su blizu distribuirane empirijske vrijednosti varijable Y oko njihovih sredina, i to je suština regresije. Heteroskedastičnost je česta kod regresijskih modela koji se ocjenjuju na osnovi podataka vremenskog presjeka, gdje su velike razlike između najvećih i najmanjih vrijednosti opažanja. CLRM pretpostavlja varijancu slučajnog odstupanja kao na slici 13(a). 5.

ODSUTNOST MULTIKOLINEARNOSTI: NE POSTOJI EGZAKTNA LINEARNA KOMBINACIJA NEZAVISNIH VARIJABLI.

Prema ovoj pretpostavci, zahtijeva se da niti jedna objasnidbena varijabla ne bude savršeno korelirana s bilo kojom drugom objasnidbenom varijablom ili s bilo kojom linearnom kombinacijom objasnidbenih varijabli. Kada se naruši ovaj zahtjev, govori se o savršenoj multikolinearnosti. S druge strane, kada su sve objasnidbene varijable međusobno nekorelirane, govori se o odsutnosti mulitikolinearnosti. 6.

NESTOHASTIČNOST VARIJABLE X

Važna je implikacija ove pretpostavke da nezavisna varijabla X i slučajno odstupanje u nisu korelirani, tj. kovarijanca između svake objasnidbene varijable i slučajne varijable u jednaka je nuli. Simbolima: cov( ui , X ki )  0 (41)

42

II. DIO REGRESIJSKA ANALIZA

6. Poglavlje: Klasični linearni regresijski model

Ukoliko ova pretpostavka nije ispunjena, te postoji na primjer pozitivna korelacija između varijable X1 i odstupanja u1, svaki rast varijable X1, bio bi praćen rastom odstupanja u1, i obrnuto, te bi bilo nemoguće utvrditi stvarni zasebni utjecaj na zavisnu varijablu Y. Ocijenjeni parametri će biti vjerojatno veći, zbog toga što će metoda najmanjih kvadrata greškom pripisati varijaciju varijable Y stvarno uzrokovanu od u, varijabli X. Ova je pretpostavka često narušena kod simultanih modela. 7.

NORMALNOST: SLUČAJNA ODSTUPANJA SU NORMALNO DISTRIBUIRANA S MATEMATIČKIM OČEKIVANJEM KAKO JE NAVEDENO U 2. PRETPOSTAVCI I VARIJANCOM KAKO JE NAVEDENO U 4. PRETPOSTAVCI.

u i  N ( 0 , 2 )

(42)

Prema ovoj pretpostavci ui je neprekidna varijabla koja poprima vrijednosti od – do +. Simetrično je distribuirana oko njezine sredine i njezina je distribucija potpuno određena dvama parametrima, sredinom i varijancom. Ova pretpostavka omogućuje primjenu statističkih testova o značajnosti regresijskih parametara ocijenjenih temeljem statističkih uzoraka, te implicira normalnu distribuiranost zavisne varijable Y. Pretpostavke o normalnosti, sredini jednakoj nuli, homoskedastičnosti te odsustvu autokorelacije impliciraju da se odstupanje tumači kao obračun velikog broja pojedinačno nesignifikantnih i nezavisnih čimbenika koje se obično zovu slučaj. To tumačenje isključuje čestu tvrdnju da odstupanje uključuje sve objasnidbene varijable sustava koje su izostavljene iz determinističkog dijela regresijske jednadžbe zbog nemjerljivosti, neznanja ili praktičnosti. Potpuna specifikacija regresijskog modela uključuje:  

regresijsku jednadžbu te osnovne pretpostavke: specifikacija vjerojatnosti odstupanja i određivanje vrijednosti nezavisne varijable.

Pretpostavke na kojima se temelji klasični linearni regresijski model koriste se pri izvođenju ocjenjivača parametara regresije. Budući da se pretpostavlja da je odstupanje normalno distribuirano i da ima sredinu jednaku nuli, varijanca 𝜎 2 jedini je pokazatelj koji je nepoznat glede te distribucije. Stoga regresijski model s dvije varijable ima svega tri nepoznata pokazatelja, a to su parametri regresije 0 i 1 te varijanca odstupanja σ2.

6.1. VARIJANCA I STANDARDNA GREŠKA OLS PROCJENITELJA Iz izraza (34) i (35) vidljivo je da su OLS procjenitelji funkcija podatka iz uzorka. Stoga, budući da je vjerojatno, da se podaci mijenjaju zavisno od uzorka iz kojega dolaze, izvjesno je da će i ocjenjivači varirati. Potrebno je stoga, odrediti pouzdanost ili preciznost procjenitelja 𝛽̂0 𝑖 𝛽̂1 . Pretpostavke klasičnog linearnog regresijskog modela omogućavaju procjenjivanje varijance i standardnih grešaka OLS procjenitelja. Procjenitelji su slučajne varijable, a njihova vrijednost mijenja se iz uzorka u uzorak. Poželjno bi bilo poznavati sampling varijacije procjenitelja, odnosno kako oni variraju s obzirom na uzorak. Sampling varijacije mjere se varijancom procjenitelja ili njihovom standardnom pogreškom, koja predstavlja kvadratni korijen njihove varijance. Standardnom pogreškom, koja predstavlja standardnu devijaciju samplingdistribucije (teorijska distribucija vjerojatnosti procjenitelja parametra) procjenitelja, mjeri se preciznost procjene. Polazeći od pretpostavki klasičnog linearnog regresijskog modela, varijance i standardne pogreške OLS dobiju se izrazima:

43

II. DIO REGRESIJSKA ANALIZA

6. Poglavlje: Klasični linearni regresijski model

𝑣𝑎𝑟(𝛽̂1 ) = 𝑠𝑒(𝛽̂1 ) =

𝜎2 ∑ 𝑥𝑖2 𝜎

(43) (44)

√∑ 𝑥𝑖2 ∑ 𝑋𝑖2 ∙ 𝜎2 𝑛 ∑ 𝑥𝑖2

(45)

∑ 𝑋𝑖2 𝑠𝑒(𝛽̂0 ) = √ ∙𝜎 𝑛 ∑ 𝑥𝑖2

(46)

𝑣𝑎𝑟(𝛽̂0 ) =

gdje je: 𝑣𝑎𝑟 𝑠𝑒 𝜎2

 varijanca  standardna greška  konstantna ili homoskedastična varijanca od 𝑢𝑖 kao u 4. pretpostavci klasičnog linearnog regresijskog modela

Jednom kada je varijanca 2 slučajnog odstupanja ui, poznata, sve vrijednosti s desne strane izraza, koje daju numeričke vrijednosti varijance i standardne greške OLS procjenitelja, mogu se jednostavno izračunati iz raspoloživih podataka. Homoskedastična varijanca slučajnog odstupanja ui, 2 dobije se iz izraza: 𝜎̂ 2 = gdje je: 𝜎̂ 2 𝑛−2 ∑ 𝑒𝑖2

∑ 𝑒𝑖2 𝑛−2

(47)

 OLS procjenitelj nepoznate stvarne varijance  broj stupnjeva slobode  suma kvadrata reziduala ili rezidualna suma kvadrata

Analogno, drugi korijen od 𝜎̂ 2 , odnosno: ∑ 𝑒𝑖2 𝜎=√ 𝑛−2

(48)

poznat je kao standardna greška procjene ili standardna greška regresije, a jednostavno predstavlja standardnu devijaciju vrijednosti od Y oko procijenjenog regresijskog pravca, te se često koristi kao sumarni pokazatelj prilagođenosti regresijske linije. PRIMJER 8

Izračun varijance i standardne greške funkcije izdataka i dohotka iz primjera 6. PROCJENITELJ

FORMULA

REZULTAT ILI PROCJENA

𝜎̂ 2

∑ 𝑒𝑖2 𝑛−2

∑ 𝑒𝑖2 51,89091 = = 6,4854 𝑛−2 8

44

II. DIO REGRESIJSKA ANALIZA

𝜎̂

6. Poglavlje: Klasični linearni regresijski model

∑ 𝑒𝑖2 𝑛−2

∑ 𝑒𝑖2 √ = √6,4854 = 2,5468 𝑛−2

𝜎2 ∑ 𝑥𝑖2

𝜎2 6,4854 = = 0,000126 ∑ 𝑥𝑖2 51562,5



𝑣𝑎𝑟(𝛽̂1 )

𝜎 𝑠𝑒(𝛽̂1 )

𝑣𝑎𝑟(𝛽̂0 )

𝑠𝑒(𝛽̂0 ) = √

∑ 𝑋𝑖2 ∙𝜎 𝑛 ∑ 𝑥𝑖2

𝜎

√∑ 𝑥𝑖2

√∑ 𝑥𝑖2

=

2,5468 √51562,5

= 0,0112

∑ 𝑋𝑖2 ∙ 𝜎2 𝑛 ∑ 𝑥𝑖2

∑ 𝑋𝑖2 740625 ∙ 𝜎2 = ∙ 6,4854 = 9,31539 10 ∙ 51562,5 𝑛 ∑ 𝑥𝑖2

𝑠𝑒(𝛽̂0 )

∑ 𝑋𝑖2 √ ∙ 𝜎 = 1,1984 ∙ 2,5468 = 3,0523 𝑛 ∑ 𝑥𝑖2

NAPOMENA: Prilikom čega se 𝑥𝑖 računa prema izrazu: 𝑥𝑖 = 𝑋𝑖 − 𝑋̅

Procijenjena funkcija izdataka iz primjera 6 glasi: 𝑌̂𝑖 = 7,6182 + 0,0814𝑋𝑖 𝑠𝑒(3,0523)(0,0112)

(49)

Vrijednosti u zagradama predstavljaju procijenjene standardne greške. Ovakvo zapisivanje rezultata regresije ukazuje na vrijednosti procijenjenih parametara i njihove standardne pogreške. U ovom slučaju, procijenjeni koeficijent nagiba funkcije izdataka iznosi 0,0814, a njegova standardna pogreška ̂ 1 od uzorka do uzorka. iznosi 0,0112 te predstavlja mjeru varijabilnosti procjenitelja 𝛽

Kako se mogu upotrijebiti navedeni podaci? Može li se, na primjer, reći da izračunati 𝛽̂ 1 leži unutar određenog broja jedinica standardne devijacije od stvarnog 1? U slučaju potvrdnog odgovora, može se s određenim povjerenjem, tvrditi koliko je regresijska funkcija uzorka dobra procjena regresijske funkcije populacije, što je svrha testiranja hipoteza. No, prije testiranja hipoteza, budući da su procjenitelji slučajne varijable, potrebno je spomenuti njihove distribucije vjerojatnosti te odgovoriti na pitanje zašto se upotrebljava baš OLS metoda za procjenu parametara regresije.

6.2. SVOJSTVA OLS PROCJENITELJA Metoda najmanjih kvadrata koristi se ne samo zbog jednostavnosti primjene, već i zbog toga što ju odlikuju određene teorijske osobine koje su sažete u Gauss-Markovom teoremu. Držeći se postavki klasičnog linearnog regresijskog modela, ocjene parametara dobivene metodom najmanjih kvadrata imaju optimalna svojstva. Ta su svojstva sadržana, kako je već spomenuto, u Gauss-Markovom teoremu, koji glasi: Uz poštivanje pretpostavki 1-6 (poglavlje 6) klasičnog linearnog regresijskog modela i primjenom metode najmanjih kvadrata, dobiveni ocjenjivači parametara regresijskog modela najbolji su linearni nepristrani ocjenjivači (engl. Best LinearUnbiased Estimator - BLUE).

45

II. DIO REGRESIJSKA ANALIZA

6. Poglavlje: Klasični linearni regresijski model

Napomena: Za Gauss-Markov teorem važno je da bude ispunjeno prvih šest pretpostavki.

Normalnost odstupanja (sedma pretpostavka) omogućuje primjenu statističkih testova za ocjenu pouzdanosti parametara i funkcije (t i F test). Ako su ocijenjeni parametri za model koji zadovoljava 7 klasičnih pretpostavki klasičnog linearnog regresijskog modela, tada oni imaju sljedeća svojstva: a)

b)

NEPRISTRANI SU.

E( ˆ k )   k OLS ocjene centrirane su oko stvarnih vrijednosti koeficijenata populacije.

(50)

IMAJU MINIMALNU VARIJANCU.

OLS ocjenjivači parametara imaju manju varijancu od bilo kojeg drugog linearnog nepristranog procjenitelja. c)

KONZISTENTNI SU.

Ako raste uzorak podataka na osnovi kojega se parametar ocjenjuje, tada ocjene konvergiraju stvarnim vrijednostima parametra. d)

NORMALNO SU DISTRIBUIRANI.

ˆ k  N (  k , 2ˆ k )

(51)

Stoga se, za ispitivanje normalnosti mogu primijeniti statistički testovi temeljeni na normalnoj distribuciji. e)

LINEARNOST

Ocjenjivač je linearan ako predstavlja linearnu funkciju opažanja u uzorku, odnosno ako je dan kao linearna kombinacija podataka. Ako je poštivano sedam klasičnih pretpostavki i koristi se metoda najmanjih kvadrata za ocjenu regresijskih parametara, tada regresijski parametar predstavlja veličinu za koliko se mijenja regresijska vrijednost zavisne varijable ako se nezavisna varijabla uz taj parametar mijenja za jedinicu, a ostale nezavisne varijable ostaju konstantne. Ocjenjivači su efikasni ako su nepristrani i imaju najmanju varijancu od bilo kojeg drugog ocjenjivača. Linearnost je poželjno svojstvo zbog jednostavnosti izračuna, mada nema toliku značajnost kao nepristranost, odnosno efikasnost. Nepristranost jamči točnost ocjene «u prosjeku», ali tek kada je u kombinaciji sa najmanjom varijancom daje poželjnu preciznost ocjene. Osobina najmanje varijance dobiva na važnosti tek kada je ocjena i nepristrana. Stoga je, kombinacija svih ovih svojstava važna odlika karakteristika procjenitelja koji se dobivaju metodom najmanjih kvadrata.

6.3. DISTRIBUCIJA VJEROJATNOSTI OLS PROCJENITELJA Kod ocjenjivanja parametara regresijskog modela koristi se metoda uzoraka. Ocjene parametara dobivene su temeljem jednog uzorka podataka iz populacije, za zavisnu i nezavisne varijable. Uzme li se drugi uzorak, dobit će se drugi skup ocjena parametara regresijskog modela. Kada bi se parametri ocijenili za veći broj uzoraka, ocjene pojedinog parametra bile bi normalno distribuirane, kao implikacija normalne distribuiranosti slučajnih odstupanja u regresijskom modelu. Rasprava o svojstvima procjenitelja, svodi se zapravo na razmatranje svojstava ocjena dobivenih iz niza uzoraka, tj. svojstava distribucije uzoraka procjenitelja. Definiranje distribucije procjenitelja preduvjet je testiranja hipoteza. Definiranje distribucije procjenitelja počiva na sedmoj pretpostavci klasičnog linearnog regresijskog modela o normalnoj distribuiranosti slučajnih odstupanja s matematičkim očekivanjem

46

II. DIO REGRESIJSKA ANALIZA

6. Poglavlje: Klasični linearni regresijski model

jednakim nula i homoskedastičnom varijancom 2. Značajnost ove pretpostavke leži u centralnom graničnom teoremu. Ako X ima bilo kakvu distribuciju sa sredinom  i varijancom 2, ̅ tada distribucija od (𝑋 − 𝜇)⁄𝜎𝑋̅ teži standardnoj normalnoj distribuciji kada veličina uzorka n raste. Stoga je distribucija 𝑋̅ u velikim uzorcima približno normalna i ima sredinu  i varijancu 𝜎 2 ⁄𝑛. CENTRALNI GRANIČNI TEOREM.

Slučajno odstupanje ui predstavlja utjecaj na zavisnu varijablu Y svih onih čimbenika koji nisu eksplicite uključeni u regresijski model, jer ih ima mnogo, a njihov je pojedinačni utjecaj nezamjetljiv. Ukoliko je skup takvih utjecaja slučajan, te ako slučajno odstupanje predstavlja zbroj takvih utjecaja, prema centralnom graničnom teoremu, može se pretpostaviti da slučajno odstupanje ima normalnu distribuciju sa srednjom vrijednosti nula i homoskedastičnom varijancom 2. Kako je poznato svaka linearna funkcija normalno distribuirane varijable, i sama je normalno distribuirana. Što znači da, ukoliko su procjenitelji linearne funkcije normalno distribuiranog slučajnog odstupanja, i oni su sami normalno distribuirani. Normalno distribuirana varijabla karakterizirana je s dva parametra: srednjom vrijednošću i varijancom. Parametri normalno distribuiranih procjenitelja su: 𝛽̂0 ~𝑁(𝛽0 , 𝜎𝛽̂2 )

(52)

𝛽̂1 ~𝑁(𝛽1 , 𝜎𝛽̂2 )

(53)

0

1

Željeno svojstvo distribucije procjenitelja jest da je prosječna vrijednost ocjene regresijskog parametra 𝛽̂ (dobivena metodom najmanjih kvadrata na velikom broju ponovljenih uzoraka) jednaka stvarnoj vrijednosti parametra 𝛽𝑘 (svojstvo sredine). U tom slučaju govori se o nepristranom ocjenjivaču. Ocjena parametra 𝛽̂ , dobivena za određeni uzorak iz takve nepristrane distribucije, bit će bliže stvarnoj vrijednosti 𝛽𝑘 (uz pretpostavku jednake varijance) od ocjene dobivene iz distribucije pristranog ocjenjivača koja nije centrirana oko stvarne vrijednosti. Slika 14: Distribucija OLS ocjena parametara dobivenih iz velikog broja uzoraka

Svojstvo varijance Iz teorije vjerojatnosti poznato je da je varijanca slučajne varijable mjera raspršenosti oko sredine. Što je manja varijanca, to su u prosjeku pojedine vrijednosti bliže sredini. Varijanca ocjene parametara je stoga, pokazatelj preciznosti ocjene parametara. Varijanca distribucije 𝛽̂ , zavisi o varijanci slučajnih odstupanja 2 i ako varijanca slučajnih odstupanja raste, raste i varijanca distribucije 𝛽̂ . Na slici 15 prikazane su ocjene parametara , dobivene na osnovi velikog broja uzoraka i pomoću dvije metode ocjenjivanja. Slika 15: Distribucija ocjena parametara dobivenih pomoću dviju metoda ocjenjivanja

47

II. DIO REGRESIJSKA ANALIZA

6. Poglavlje: Klasični linearni regresijski model

Metoda kojom je dobivena ocjena 𝛽̂ ima manju raspršenost oko srednje, stvarne vrijednosti parametara ima dakle, manju varijancu.

48

II. DIO REGRESIJSKA ANALIZA

7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije

7. POGLAVLJE TESTIRANJE HIPOTEZA U MODELU JEDNOSTAVNE LINEARNE REGRESIJE

P

rocjena parametara i testiranje hipoteza dva su osnovna područja statističkog zaključivanja. Metoda najmanjih kvadrata jedna je od metoda procjene parametara linearnog regresijskog modela. Imajući na umu pretpostavke klasičnog linearnog regresijskog modela analiziraju se svojstva regresijskih parametara, te je pod pretpostavkom normalnosti slučajnog odstupanja, moguće odrediti distribuciju procjenitelja. Preduvjeti su to za testiranje hipoteza u sklopu regresijske analize.

TEST HIPOTEZE O ZNAČAJNOSTI REGRESIJSKIH PARAMETRA: T-TEST

U praksi se testira hipoteza o značajnosti parametara uz nezavisnu varijablu, ili, što je isto hipoteza o značajnosti prisutnosti varijable X u modelu. Osnova je testiranja sampling-distribucija procjenitelja parametara, odnosno procjenitelja komponenti varijance. Odluka se donosi usporedbom test-veličine s odgovarajućim kritičnim vrijednostima sampling-distribucije. Statistički značajan ili signifikantan parametar znači zapravo da su podaci konzistentni s pretpostavkom o uzročnosti veze između zavisne i nezavisne varijable. U modelu jednostavne linearne regresije test hipoteze o značajnosti parametra, može biti jednosmjeran ili jednostran (na donju ili gornju granicu) ili dvosmjeran, odnosno dvostran. Hipotezama: 𝐻0 : 𝛽1 = 0 𝐻1 : 𝛽1 ≠ 0 utvrđuje se značajnost nezavisne varijable koja postoji uz parametar  u regresijskom modelu. Uz pretpostavku da su ocjene parametara normalno distribuirane, za testiranje pouzdanosti ocijenjenog parametra koristi se Studentov t-pokazatelj. Test-veličina je empirijski t-omjer: 𝑡=

𝛽̂ − 𝛽 ∗ 𝑠𝛽̂

(54)

gdje je * hipotetička vrijednost od  (na primjer * =0 ). Uz spomenute uvjete test-veličina je distribuirana po Studentovoj distribuciji sa (n-2) stupnja slobode. U postupku provođenja t-testa potrebno je odrediti:  Broj stupnjeva slobode, koji iznosi (n-2) za model s dvije varijable.  Razinu signifikantnosti ; u empirijskim istraživanjima obično se koriste razine signifikantnosti od 1, 5 ili 10%. Umjesto arbitrarnog odabira razine signifikantnosti, može se izračunati p vrijednost, te odbaciti nultu hipotezu ukoliko je izračunata vrijednost dovoljno mala.  Vrstu testa koji će se koristiti: da li jednosmjerni ili dvosmjerni test. Odluka se donosi usporedbom empirijske vrijednosti s teorijskom vrijednosti t za danu razinu signifikantnosti  i određeni broj stupnjeva slobode. Ako je varijanca osnovnog skupa poznata ili

49

II. DIO REGRESIJSKA ANALIZA

7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije

je uzorak velik, test-veličina je empirijski z-omjer. Hipoteze i način donošenja odluka za t-test prikazani su u tablici 9. Tablica 9: Način donošenja odluke za t-test

vrsta testa

nulta hipoteza 0

alternativna hipoteza 1

područje prihvaćanja 0

područje odbacivanja 0

dvosmjeran H0… = * H1…  *  t  < t/2, df  t  > t/2, df desnostran: jednosmjeran, na H0…  * H1…  * t < t, df t > t, df gornju granicu ljevostran: jednosmjeran, na H0…  * H1…  * t >-t, df t < -t, df donju granicu NAPOMENA: t/2, df ili t, df teorijska je ili kritična t vrijednost (tc) uz razinu signifikantnosti  i sa stupnjevima slobode df=n-k-1, n je broj opažanja, a k broj nezavisnih varijabli.

Dvostranim testom testira se hipoteza o pretpostavljenoj vrijednosti, a jednostranim predznak parametra uz regresorsku varijablu. DVOSTRANI TEST

Korištenjem dvostranog t-testa s hipotezama: 𝐻0 : 𝛽1 = 0 𝐻1 : 𝛽1 ≠ 0 utvrđuje se značajnost nezavisne varijable koja postoji uz parametar  u regresijskom modelu. JEDNOSTRANI TEST

U ekonometrijskoj analizi jednostrani test se koristi za testiranje ima li parametar pretpostavljeni predznak. Predznak regresijskog koeficijenta najčešće je a priori pretpostavljen. Hipoteze za ljevostrani t-test su: 𝐻0 : 𝛽1 ≥ 0 𝐻1 : 𝛽1 < 0 H0 se odbacuje ako je t < - t, df i tada se kaže da parametar uz varijablu ima očekivani negativni predznak. Hipoteze za desnostrani t-test su: 𝐻0 : 𝛽1 ≤ 0 𝐻1 : 𝛽1 > 0 H0 se odbacuje ako je t > t, df i kaže se da parametar uz varijablu ima očekivani pozitivni predznak. Odluka se također može donijeti pomoću empirijske razine signifikantnosti p, koja predstavlja najnižu razinu povjerenja na kojoj se može odbaciti nul hipoteza. PRIMJER 9

Postupak testiranja hipoteza na primjeru izdataka iz primjera 6.

50

II. DIO REGRESIJSKA ANALIZA

7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije

̂ 𝑖 = 7,6182 + 0,0814𝑋𝑖 . Pretpostavimo slijedeću tvrdnju: Dohodak Procijenjena funkcija izdataka iznosi 𝑌 nema nikakvog utjecaja na količinu potrošenog novca, dakle: 𝐻𝑜 : 𝛽1 = 0 Nulta hipoteza istražuje da li je Y uopće u vezi sa X. Ako se nulta hipoteza prihvati, nema nikakvog smisla uključivati varijablu X u model. S druge, strane ukoliko varijabla X ima utjecaja na varijablu Y nulta se hipoteza odbacuje u korist alternativne hipoteze, koja tvrdi: 𝐻1 : 𝛽1 ≠ 0 U razmatranom primjeru je koeficijent nagiba različit od nule, a može biti pozitivan ili negativan. Za očekivati je, stoga odbacivanje nulte hipoteze. U nastavku je prikazan postupak testiranja. Dvostrani t-test Hipoteze dvostranog testa su: 𝐻0 : 𝛽1 = 0 𝐻1 : 𝛽1 ≠ 0 Uvrštavanjem potrebnih numeričkih vrijednosti u izraz (54) dobije se:

𝑡=

𝛽̂ − 𝛽 ∗ 0,0814 − 0 = = 7,2624 𝑠𝛽̂ 0,0112

Iz tablice Studentove t-distribucije očitamo kritične t vrijednosti za dvostrani test za 8 stupnjeva slobode za različite razine signifikantnosti: razina signifikantnosti 0,01 0,05 0,10

kritična t vrijednost 3,355 2,306 1,860

U tablici 9 o načinu donošenja odluka, u slučaju dvostranog t-testa, vidimo da ukoliko je izračunata tvrijednost veća od kritičnih t vrijednosti, na odabranoj razini signifikantnosti, odbacujemo nultu hipotezu kao netočnu. U primjeru se stoga, nulta hipoteza odbacuje kao netočna, jer je izračunata vrijednost t od 7,262 daleko veća od kritične vrijednost. U istom primjeru, p vrijednost statistike od 7,2624 iznosi oko 0,0001. Što znači da bismo, u slučaju odbacivanja hipoteze o tome da je vrijednost koeficijenta regresije jednaka nuli, pogriješili jednom u 1000 slučajeva. Jednostrani t-test Kako se pretpostavlja pozitivna vrijednost koeficijenta dohotka u funkciji izdataka (desnostrani test), realistični sustav hipoteza mogao bi biti: 𝐻0 : 𝛽1 ≤ 0 𝐻1 : 𝛽1 > 0 Postupak testiranja ostaje isti, osim što vjerojatnost pogreške tipa I nije ravnomjerno podijeljena na dva kraka t-distribucije, već je koncentrirana ili na lijevom ili na desnom kraku krivulje.

51

II. DIO REGRESIJSKA ANALIZA

7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije

Slika 16: Jednostrani test: (a) Desnostrani i (b) Ljevostrani

U razmatranom primjeru razmatra se desni krak. Za 8 stupnjeva slobode očitavaju se vrijednosti iz ttablice za kritične t-vrijednosti: razina signifikantnosti 0,01 0,05 0,10

kritična t vrijednost 2,896 1,860 1,397

Najprije se izračunava t vrijednost za hipotezu da je hipotetična vrijednost regresijskog koeficijenta 0: 𝑡=

𝛽̂ − 𝛽 ∗ 0,0814 − 0 = = 7,2624 𝑠𝛽̂ 0,0112

Kako je izračunata t vrijednost veća od kritičnih vrijednosti, odbacujemo nultu hipotezu o tome da dohodak nema utjecaja na veličinu izdataka, naprotiv ima pozitivan utjecaj. PRIMJER 10

Postupak testiranja hipoteza na primjeru 7 analize odnosa između prihoda i izdataka za promidžbene aktivnosti varijable u modelu su: y x

= prihodi od prodaje proizvoda, u HRK, zavisna varijabla = izdaci za promidžbene aktivnosti, u HRK, nezavisna varijabla

Rezultati procjene parametara varijabli dani su u sljedećoj tablici. Tablica 10: Rezultati regresijske analize (ispis Gretl)

Iz ispisa proizlazi da procijenjena regresijska jednadžba glasi: 𝑦̂ = 968,999 + 16,1482𝑥 (257,029)

(0,787487)

Vrijednosti u zagradama ispod procijenjenih parametara jesu standardne greške procjena (engl. std. error). Regresijski koeficijent je pozitivan iz čega proizlazi da je veza između varijabli x i y pozitivna. Stoga se, kako bi se ispitalo da li je varijable x suvišna u modelu, može koristiti jednosmjerni test na gornju granicu:

52

II. DIO REGRESIJSKA ANALIZA

7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije

𝐻𝑜 : 𝛽1 ≤ 0 𝐻1 : 𝛽1 > 0 Test veličina (t-ratio) u konkretnom slučaju dobivena je prema formuli: 𝑡=

𝛽̂ − 𝛽 ∗ 16,1482 − 0 = = 20,51 𝑠𝛽̂ 0,787487

Ako se test provodi uz razinu signifikantnosti 𝛼 = 0,05 𝑖𝑙𝑖 5%, tada je za n = 12, 𝑡𝛼 (𝑛 − 2) = 𝑡0,05 (10) = 1,1812 . Budući da je 𝑡 > 𝑡𝛼 (𝑛 − 2) proizlazi zaključak, da se uz razinu signifikantnosti 5%, nulta hipoteza odbacuje, tj. ne prihvaća se pretpostavka da su izdaci za promidžbene aktivnosti suvišna varijabla u modelu. Analogno, odluka o ishodu testa može se donijeti i na temelju p-vrijednosti (engl. p-value). Iz ispisa proizlazi da je: 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 1,68𝑒 − 9 < 0,05 → 𝐻1 , tj. nulta se hipoteza odbacuje uz bilo koju uobičajenu razinu signifikantnosti α.

53

7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije

II. DIO REGRESIJSKA ANALIZA

ZADACI ZA VJEŽBU 1.

2.

3.

4.

5.

6.

Koja od sljedećih nezavisnih varijabli ne zadovoljava klasičnu pretpostavku savršene multikolinearnosti među eksplanatornim varijablama: a) potrošnja i dohodak u državi kroz razdoblje od 10 godina; b) 𝑋𝑖 i 2 + 𝑋𝑖 , te c) 𝑋𝑖 i 𝑋𝑖2 . Koje su od sljedećih tvrdnji točne ili djelomično točne: a) Ocjene ne mogu biti BLUE ako slučajna odstupanja u nisu normalno distribuirana. b) Ako odstupanja nisu normalno distribuirana, F i t-test ne mogu se primijeniti. c) Visoka p-vrijednost znači da je parametar signifikantno različit od nule. d) Ako su odstupanja autokorelirana ili heteroskedastična, ocijenjeni parametri neće biti nepristrani ili BLUE. e) P-vrijednost je vjerojatnost da je nulta hipoteza točna. Kada biste trebali odabrati procjenitelja parametra čija svojstva nisu u skladu s Gauss Markovim teoremom, a) Što biste od sljedećeg odabrali: 1. nepristrani procjenitelj koji nema minimalnu varijancu 2. pristrani procjenitelj s minimalnom varijancom? b) bi li odgovor bio isti ako bi se radilo:  za 1. o vrlo velikoj varijanci te  za 2. o vrlo maloj, ali ne i minimalnoj varijanci? Ocijenjen je model prodaje jedne vrste kave u 12 trgovina na temelju podataka za mjesec ožujak, 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝑢𝑖 , gdje je Y: količina prodanog proizvoda, X1: cijena proizvoda u kunama: 𝑌𝑖 = 1800,6 − 237,067𝑋1𝑖 𝑠𝑒 = (82,31)(21,89) Izračunajte t vrijednosti i testirajte signifikantnost ocijenjenih parametara uz nezavisnu varijablu. Razina signifikantnosti 5%. Analizira se regresijski model 𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1𝑡 + 𝑢𝑡 potražnje stanovništva za kreditima u RH na osnovi godišnjih podataka za razdoblje 1996. – 2003., a varijable su Y: potražnja stanovništva za kreditima u milijunima kuna, te X1: te kamatne stope na kunske kredite (% godišnje). Varijable Y i X1 iskazane su u stalnim cijenama 1996. Ocijenjeni regresijski model glasi: 𝑌𝑡 = 76,79 − 7,8504𝑋1𝑡 𝑠𝑒 = (0,96)(3,19) Primijenite jednostrani t-test za testiranje parametra uz nezavisnu varijablu. Razina signifikantnosti 5%. Dane su nezavisna varijabla 𝑋 i zavisna varijabla Y te model 𝑌̂𝑖 = 8 + 2𝑋1 . Uz pomoć modela i podataka u tablici: Y X1

-11 -10

-7 -7

4 -3

4 -1

11 2

17 5

21 6

25 8

a) Izračunajte standardnu grešku ocjene regresijskog koeficijenta. b) Testirajte statističku značajnost nagiba, odnosno nultu hipotezu da je vrijednost parametra jednaka nuli (razina signifikantnosti 5%).

54

II. DIO REGRESIJSKA ANALIZA

7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije

RJEŠENJA ZADATAKA 1. 2. 3.

4. 5. 6.

b) Xi i 2+Xi Točne su tvrdnje pod b) i d).

a) Bolje je odabrati nepristrani ocjenjivač koji nema minimalnu varijancu. b) Nepristrani procjenitelj s jako velikom varijancom ima veliku vjerojatnost da bude daleko od stvarne vrijednosti. Zato bi bolji izbor bio pristrani ocjenjivač s vrlo malom pristranosti i minimalnom varijancom. Hipoteze dvostranog testa: 𝐻0 : 𝛽1 = 0, odnosno, 𝐻1 : 𝛽1 ≠ 0. |𝑡| = 10,826𝑡0,05 (10) = 2,228. Nulta se hipoteza odbacuje. Hipoteze ljevostranog testa: 𝐻0 : 𝛽1 ≥ 0, odnosno, 𝐻1 : 𝛽1 < 0. . |𝑡| = −8,1775𝑡0,05 (150) = 2,015. Nulta se hipoteza odbacuje. a) 𝜎 ̂ = 1,53; 𝑠𝑒(𝛽̂1 ) = 0,09 b) |𝑡| = 22,22; 𝑡0,05 (6) = 2,447. Nagib funkcije je statistički značajan, te se nulta hipoteza odbacuje.

55

II. DIO REGRESIJSKA ANALIZA

8. Poglavlje: Mjerenje pouzdanosti regresijskog modela

8. POGLAVLJE

MJERENJE POUZDANOSTI REGRESIJSKOG MODELA

N

akon ocjenjivanja ekonometrijskog modela pristupa se vrednovanju dobivenih ocjena parametara sa stajališta ekonomskih, statističkih i ekonometrijskih kriterija. Ekonomski kriteriji predmet su istraživanja ekonomske teorije. Ekonometrijski kriteriji ili testovi drugog reda predmet su razmatranja u kasnijim poglavljima. U ovom poglavlju biti će riječi o statističkim kriterijima.

Usporedba ocijenjenih vrijednosti zavisne varijable Y s empirijskim podacima daje sliku prilagođenosti regresijskog modela. No, postoje preciznije statističke mjere prilagođenosti, a koje se temelje na usporedbi koliko bolje regresijski model, koji je ocijenjen pomoću metode najmanjih kvadrata, objašnjava vrijednosti zavisne varijable Y, od jednostavnog pokazatelja – prosječne vrijednosti 𝑌̅. Dva najčešća statistička testa u ekonometriji su koeficijent determinacije, koji mjeri moć linearne regresije u objašnjavanju varijacija zavisno promjenjive varijable, te test statističke značajnosti ocjenjenih vrijednosti parametara, zasnovan na statističkim pogreškama dobivenih ocjena parametara koji mjeri pouzdanost ocjena. Za mjerenje prilagođenosti ocijenjenih vrijednosti 𝑌̂𝑖 stvarnim, empirijskim podacima 𝑌𝑖 , ekonometričari koriste odstupanja empirijskih podataka 𝑌𝑖 od njihove sredine 𝑌̅. Rastavljanje tih odstupanja služi kao osnova za definiranje statističkih mjera prilagođenosti. Dokazano je da je, na temelju t-testa, regresijski koeficijent u primjeru funkcije izdataka iz primjera 6 statistički značajan, što ukazuje da je izračunata regresijska funkcija uzorka «razumno» dobra kako to prikazuje sljedeća slika. Slika 17: prilagođenost regresijskog pravca funkcije izdataka empirijskim podacima 40 y = 7,6182+0,0815x

35 30

Y

25 20 15 10 5 0 0

50

100

150

200

250

300

350

400

X

No, vidljivo je kako na regresijskoj funkciji uzorka ne leže sve vrijednosti varijable Y. To je stoga, što ̂ 𝑖 ) nisu svi jednaki nuli; neki su pozitivni, a neki negativni. Postavlja se, stoga reziduali 𝑒𝑖 = (𝑌𝑖 − 𝑌 pitanje, može li se odrediti neka opća mjera «dobre prilagođenosti», koja nam govori koliko dobro procijenjeni regresijski pravac pristaje stvarnim vrijednostima od Y? Takva mjera postoji, a zove se koeficijent determinacije, R2.

56

II. DIO REGRESIJSKA ANALIZA

8. Poglavlje: Mjerenje pouzdanosti regresijskog modela

8.1. RASTAVLJANJE VARIJACIJA ZAVISNE VARIJABLE Poznato je da je odnosno

𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖

(55)

𝑌𝑖 = 𝑌̂𝑖 + 𝑒𝑖

(56)

Ako se od jednadžbe (56) oduzme s obje strane 𝑌̅ dobije se 𝑌𝑖 − 𝑌̅ = 𝑌̂𝑖 − 𝑌̅ + 𝑒𝑖

(57)

(𝑌𝑖 − 𝑌̅) = (𝑌̂𝑖 − 𝑌̅) + (𝑌𝑖 − 𝑌̂)

(58)

ili

Odstupanja empirijskih podataka Yi od njihove sredine 𝑌̅ zovu se ukupna odstupanja. Ova dekompozicija ukupnog odstupanja prikazana je za samo jedno odstupanje. Ako se za sva opažanja u uzroku kvadriraju i zbroje obje strane jednakosti (58), dobije se sažeta mjera za sva opažanja. Suma kvadrata odstupanja zove se varijacija:

 Y n

i 1

i

Y

   Yˆ  Y    e n

2

i 1

n

2

i

i 1

2

i

n





 2 Y1  Y  ei

(59)

i 1

Kako je zadnji pribrojnik na desnoj strani relacije (59) jednak nuli, imamo:

 Y  Y    Yˆ  Y    e n

i 1

2

i

n

i 1

2

i

n

i 1

2

(60)

i

ili riječima: ukupna suma kvadrata = objašnjena suma kvadrata TSS

ESS

+

neobjašnjena (rezidualna) suma kvadrata RSS

gdje je: TSS =

ukupna suma kvadrata ili ukupna varijacija (Total Sum of Squares) koja predstavlja mjeru ukupne varijacije varijable Y oko njezine srednje vrijednosti;

ESS =

objašnjena suma kvadrata ili objašnjena varijacija (Estimated Sum of Squares), odnosno dio ukupne varijacije varijable Y oko njezine sredine koji je objašnjen varijacijama varijable X;

RSS =

rezidualna suma kvadrata ili rezidualna ili neobjašnjena varijacija (Residual Sum of Squares), odnosno dio ukupne varijacije varijable Y koji se može pripisati slučajnim utjecajima.

NAPOMENA: Termini varijacija i varijanca nisu sinonimi. Varijacija je suma kvadrata odstupanja varijable od njene srednje vrijednosti dok je varijanca suma podijeljena s odgovarajućim stupnjevima slobode (varijacija/s.s.).

Varijacije varijable Y djelomice se mogu predstaviti pomoću varijacija varijable X, a djelomice su posljedica slučajnih odstupanja. Čim je relativno manji udio neobjašnjenih rezidualnih varijacija (RSS) u ukupnim (TSS), to je ocijenjena regresijska funkcija bolje prilagođena empirijskim podacima. Ako sve stvarne vrijednosti 𝑌𝑖 leže na regresijskoj funkciji uzorka, objašnjena varijacija izjednačava se s ukupnim varijacijama, a rezidualna varijacija iznosi nula. Obrnuto, ukoliko regresijska funkcija uzorka loše prikazuje podatke, rezidualna varijacija biti će velika, veća od objašnjene varijacije. U ekstremnom slučaju, ako varijacije varijable X uopće ne objašnjavaju varijacije varijable Y oko njezine sredine, objašnjena varijacije biti će nula, a

57

II. DIO REGRESIJSKA ANALIZA

8. Poglavlje: Mjerenje pouzdanosti regresijskog modela

rezidualna jednaka ukupnoj varijaciji varijable Y. Metoda koja minimizira u danim ukupnim varijacijama rezidualne varijacije, donosno maksimizira objašnjene varijacije, je metoda najmanjih kvadrata. Slika 18: Objašnjena i neobjašnjena komponenta opažanja Yi

U praksi je uobičajeno da ni ESS niti RSS nisu jednake nuli.

8.2. UTVRĐIVANJE VALJANOSTI REGRESIJE POMOĆU KOEFICIJENTA DETERMINACIJE Već je spomenuto da, ukoliko je ESS veća od RSS, regresijska funkcija uzorka objašnjavat će veći dio varijacija u Yi. Ako je RSS veći, RFU će objašnjavati tek dio spomenutih varijacija. Sve ove kvalitativne tvrdnje jednostavno su razumljive i lako se mogu kvantificirati. Dobije se tako koeficijent determinacije, 𝑅 2 , kao kvantitativna mjera uspješnosti prilagodbe ocijenjene funkcije empirijskim podacima. Budući da je TSS=ESS+RSS

(61)

dijeljenjem izraza (61) s TSS dobije se 𝐸𝑆𝑆 𝑅𝑆𝑆 + 𝑇𝑆𝑆 𝑇𝑆𝑆

(62)

∑ 𝑒𝑖2 𝐸𝑆𝑆 𝑅𝑆𝑆 =1− =1− 𝑇𝑆𝑆 𝑇𝑆𝑆 ∑(𝑌𝑖 − 𝑌̅)2

(63)

1= Koeficijent determinacije iznosi: 𝑅2 =

Ovako definirani R2 poznat je kao koeficijent determinacije (uzorka) i najčešće je korištena mjera prilagođenosti ocijenjene funkcije empirijskim podacima, koja mjeri proporciju modelom protumačenog dijela zbroja kvadrata u ukupnom zbroju kvadrata. Protumačeni dio kvadrata jednak je zbroju kvadrata odstupanja regresijskih vrijednosti od aritmetičke sredine zavisne varijable, a ukupan zbroj kvadrata odnosi se na zbroj kvadrata odstupanja vrijednosti zavisne varijable od njezine aritmetičke sredine. Koeficijent determinacije kreće se u granicama

58

II. DIO REGRESIJSKA ANALIZA

8. Poglavlje: Mjerenje pouzdanosti regresijskog modela

od jedan do nule. Po pravilu, model je reprezentativniji, što je koeficijent determinacije bliži jedinici. Što je RSS manja, veće je ESS , a R2 je po vrijednosti bliži jedinici. Ako je 𝐸𝑆𝑆 = 𝑇𝑆𝑆 → 𝑅 2 = 1 što znači da empirijske vrijednosti leže na ocijenjenoj linearnoj funkciji (slika 18). Koeficijent determinacije, operativno je mjerilo koje nema podlogu u statističkom zaključivanju. Uspješnost prilagodbe relativan je pojam, zavisno o onom što se istražuje. Nema jednostavne metode koja određuje granicu uspješnosti. To je uglavnom stvar iskustva istraživača. Kada je R2=0,50, znači da je 50% varijacija zavisne varijable objašnjeno pomoću ocijenjenog regresijskog modela. Za podatke vremenskog niza to je obično loš pokazatelj, no za podatke vremenskog presjeka može se smatrati dobrim. Slika 19: Koeficijent determinacije kao mjera uspješnosti prilagodbe linearne funkcije empirijskim podacima

(a)

R 1

R

(a)

(b)

2

2

 0 , 90

R2  0

(c)

Potrebno je spomenuti dva osnovna svojstva koeficijenta determinacije:  

Radi se o ne negativnoj vrijednosti. Kreće se u intervalu 0 R21, jer ESS dio ne može biti veći od TSS dijela. R2 = 1 označava savršenu prilagodbu (cjelokupna varijacija Y objašnjena je ocijenjenim regresijskim modelom). R2=0 označava nepostojanje veze između varijabli Y i X.

PRIMJER 11

Izračun koeficijenta determinacije za primjer funkcije izdataka iz primjera 6.

𝑅2 =

∑ 𝑒𝑖2 𝐸𝑆𝑆 𝑅𝑆𝑆 51,8909 =1− =1− = 1 − = 0,8683 𝑇𝑆𝑆 𝑇𝑆𝑆 ∑(𝑌𝑖 − 𝑌̅)2 394

Dobiveni koeficijent determinacije dovoljno je visok, što znači da u primjeru varijabla X (dohodak) objašnjava oko 86% varijacija u izdacima. KOEFICIJENT KORELACIJE

Korelacijska analiza sastoji se u primjeni postupaka kojima se utvrđuju pokazatelji jakosti statističke veze među pojavama. Ako je povezanost po obliku linearna govori se o linearnoj korelaciji. Standardizirana mjera jakosti statističke veze između pojava predočenih dvjema kvantitativnim varijablama je koeficijent korelacije: 𝑟=

∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) √(𝑋𝑖 − 𝑋̅)2 (𝑌𝑖 − 𝑌̅)2

(64)

Koeficijent korelacije može poprimiti vrijednosti od 1. Vrijednost koeficijenta korelacije jednaka nuli označava nepostojanje linearne korelacije među pojavama, vrijednost od +1

59

II. DIO REGRESIJSKA ANALIZA

8. Poglavlje: Mjerenje pouzdanosti regresijskog modela

označava potpunu korelaciju pozitivna smjera, a vrijednost od -1 označava postojanje potpune korelacije negativnoga smjera. Što je koeficijent korelacije po apsolutnoj vrijednosti bliži jedinici to je veza među varijablama uža. Mala vrijednost koeficijenta korelacije ne mora nužno značiti da je slaba veza među pojavama, jer povezanost pojava može biti krivolinijska, pa je upotreba koeficijenta linearne korelacije neprimjerena. Koeficijent linearne korelacije jednak je drugom korijenu koeficijenta determinacije, a predznak linearne korelacije uvijek je jednak predznaku koeficijenta regresije. Koeficijent korelacije može se, stoga izračunati i putem koeficijenta determinacije i to: 𝑟 = ∓√𝑅 2

(65)

PRIMJER 12

Izračun koeficijenta korelacije za primjer funkcije izdataka iz primjera 6. U primjeru funkcije izdataka gdje su u odnos stavljene varijable izdaci (Y) i raspoloživi dohodak (X) koeficijent linearne korelacije izračunat je kao drugi korijen koeficijenta determinacije i to:

𝑟 = ∓√0,8638 = 0,9318 Koeficijent korelacije iznosi +0,9318. Za uočiti je da je predznak koeficijenta linearne korelacije jednak predznaku koeficijenta regresije. Varijable su usko povezane, a korelacija ima pozitivan smjer.

8.3. STANDARDNA GREŠKA REGRESIJE Sposobnost modela da objašnjava «ponašanje» zavisne varijable ocjenjuje se na osnovi greške (reziduala) tog modela. Pojam standardne pogreške uveden je u poglavlju 6.1. Već je ranije spomenuto, da čim je manji udio rezidualnih odstupanja u ukupnim varijacijama (TSS), bolja je prilagođenost modela empirijskim podacima. Mjera te prilagođenosti izvodi se iz procijenjene varijance regresije 𝑠 2 (𝜎̂ 2 ), koja je omjer rezidualne varijacije i stupnjeva slobode koji su joj pridruženi, a zove se standardna greška regresije (Standard Error of the Regression): ∑ 𝑒𝑖2 𝑅𝑆𝑆 𝑠 = = 𝑛−𝑘−1 𝑛−𝑘−1 2

(66)

gdje je n broj opažanja, k broj regresorskih (nezavisnih) varijabli u modelu. Iz varijance s2 računa se standardna greška regresije s: ∑ 𝑒𝑖2 𝑅𝑆𝑆 𝑠 = √𝑠 2 = √ =√ 𝑛−𝑘−1 𝑛−𝑘−1

(67)

Ova je mjera izražena u jedinicama zavisne varijable, no iz praktičnih razloga računa se kao relativni pokazatelj, tj. koeficijent varijacije: 𝑠 𝑉 = ∙ 100 (68) 𝑌̅ Koeficijent varijacije od 20 % ili više iskustvena je vrijednost prihvatljivosti ocijenjenog regresijskog modela.

60

II. DIO REGRESIJSKA ANALIZA

8. Poglavlje: Mjerenje pouzdanosti regresijskog modela

8.4. TESTIRANJE STATISTIČKE ZNAČAJNOSTI REGRESIJSKOG MODELA Dok 𝑅 2 mjeri stupanj prilagođenosti regresijskog modela empirijskim podacima, on ne daje odgovor o razini statističke značajnosti te prilagodbe. Drugim riječima, postavlja se pitanje odražava li koeficijent determinacije stvarnu povezanost među varijablama modela ili je slučajan rezultat korištenih podataka iz odabranog uzorka. Statistička značajnost prilagođenosti modela testira se F-testom, pri čemu se koristi analiza varijance. Analiza varijance za model jednostavne regresije oslanja se na raščlambu zbroja kvadrata odstupanja vrijednosti zavisne varijable od njezine aritmetičke sredine. Navedena se raščlamba temelji na sljedećim postavkama: ukupni zbroj kvadrata

=

+ neprotumačeni dio zbroja kvadrata

protumačeni dio zbroja kvadrata

rezidualni zbroj kvadrata: zbroj kvadrata odstupanja empirijskih vrijednosti zavisne varijable od regresijskih vrijednosti

zbroj kvadrata odstupanja regresijskih vrijednosti od aritmetičke sredine zavisne varijable

zbroj kvadrata odstupanja vrijednosti zavisne varijable od njezine aritmetičke sredine

TSS=ESS+RSS Procjena varijance i komponenti (sredine kvadrata, mean squares) određuje se tako da se pojedini zbrojevi kvadrata podijele s pripadajućim stupnjevima slobode:   

ukupnom zbroju kvadrata pridružuje se (n-1) stupanj slobode, protumačenom zbroju 1 stupanj slobode, rezidualnom zbroju kvadrata (n – k – 1) stupnja slobode

gdje je n broj opažanja, a k je broj nezavisnih varijabli. Varijacije iz izraza (61) dijele se s pripadnim stupnjevima slobode (d.f.), tj. brojem nezavisnih opažanja na kojima su temeljene. Tako je ukupnoj varijaciji pridružen broj (n-1), objašnjenoj k, a neobjašnjenoj (n-k-1). Prema relaciji (61), dakle vrijedi: (69)

(𝑛 − 1) = (𝑘) + (𝑛 − 𝑘 − 1)

Varijacija, podijeljena s pripadnim stupnjevima slobode, procjena je varijance na bazi uzorka. Postupak dekomponiranja varijacija zove se analiza varijance u regresiji ili ANOVA (Analysis of Variance), a prikazuje se u karakterističnoj tablici. Tablica 11: ANOVA izvor varijacije objašnjena regresijom ∑ 𝑌̂𝑖2 neobjašnjena regresijom (rezidualna odstupanja)

suma kvadrata

stupnjevi slobode

𝐸𝑆𝑆

𝐸𝑆𝑆 = ∑(𝑌̂𝑖 − 𝑌̅ )2 ili

𝐸𝑆𝑆 = 𝛽12 ∑ 𝑥𝑖2

𝑘 k

𝑅𝑆𝑆 =

n-k-1

𝑇𝑆𝑆 = ∑(𝑌𝑖 − 𝑌̅)2

F-vrijednost 2

=

∑(𝑌̂ 𝑖 − 𝑌̅ ) ili

𝑘

𝐸𝑆𝑆 𝛽12 ∑ 𝑥𝑖2 = 𝑘 𝑘 𝑅𝑆𝑆

∑ 𝑒𝑖2

∑ 𝑒𝑖2 Ukupna∑ 𝑌𝑖2

sredina kvadrata

𝑛−𝑘−1

=

𝐹=

𝐸𝑆𝑆⁄𝑘 𝑅𝑆𝑆⁄(𝑛 − 𝑘 − 1)

∑ 𝑒2𝑖 𝑛−𝑘−1 =𝜎 ̂2

n-1

61

II. DIO REGRESIJSKA ANALIZA

8. Poglavlje: Mjerenje pouzdanosti regresijskog modela

Kvaliteta ocijenjenog regresijskog modela prosuđuje se testiranjem značajnosti prisutnosti svih regresorskih varijabli u modelu.

TEST HIPOTEZE O SIGNIFIKANTNOSTI REGRESIJSKE FUNKCIJE

Kvaliteta ocijenjenog regresijskog modela prosuđuje se testiranjem značajnosti prisutnosti svih regresorskih varijabli u modelu. Testiranje hipoteze o značajnosti regresijske funkcije provodi se F-testom. U modelu jednostavne linearne regresije F-test ekvivalentan je t-testu. Hipoteze za taj test jesu: 𝐻0 : 𝛽1 = 0 gdje:  

𝐻1 : 𝛽1 ≠ 0 H0: sadrži tvrdnju da je regresorska varijabla X suvišna u modelu (nije signifikantna), odnosno da su svi parametri uz regresorsku varijablu u modelu jednaki nuli. H1: sadrži tvrdnju da prisutnost regresorske varijable (signifikantna je) objašnjava varijacije zavisne varijable Y.

Tvrdnja alternativne hipoteze ekvivalentna je tvrdnji da je barem jedan parametar osnovnog skupa  različit od 0. Test veličina je empirijska F vrijednost koja je omjer procjena objašnjene i neobjašnjene varijance: 𝐸𝑆𝑆⁄𝑘 𝐹= = 𝑅𝑆𝑆⁄(𝑛 − 𝑘 − 1)

𝛽12 ∑ 𝑥𝑖2 𝑘 𝜎̂ 2

(70)

pripada F-distribuciji s k stupnjeva slobode u brojniku i (n-(k+1)) stupnjeva slobode u nazivniku. Odluka se donosi usporedbom empirijskog F-omjera s teorijskom vrijednosti Fdistribucije za razinu signifikantnosti  i broj stupnjeva slobode. Nulta se hipoteza prihvaća ako je empirijski F-omjer manji od teorijske vrijednosti F-distribucije, u protivnome se ista ne prihvaća. Odluka se ekvivalentno donosi na temelju p-vrijednosti (ako je p-vrijednost manja od razine signifikantnosti , nulta se hipoteza ne prihvaća; nulta se hipoteza prihvaća ako je p-vrijednost veća od ). PRIMJER 13

Analiza prilagođenosti regresijskog modela – analiza varijance i testiranje statističke značajnosti regresijskoga modela za primjer 7 koji analizira odnos prihoda od prodaje u ovisnosti o izdacima za promidžbene aktivnosti programskom potporom Gretl Sljedeća tablica prikazuje rezultate analize varijance (ANOVA tablica). Tablica 12: Tablica analiza varijance (ispis Gretl)

62

II. DIO REGRESIJSKA ANALIZA

8. Poglavlje: Mjerenje pouzdanosti regresijskog modela

Rezultati računalnoga ispisa interpretiraju se kako slijedi: Protumačena suma kvadrata, odnosno objašnjena suma kvadrata-ESS (engl. Regression Sum of Square) iznosi 44804100 (4,48041e+007) je zbroj kvadrata odstupanja procijenjenih ili regresijskih vrijednosti od prosjeka. Neprotumačena suma kvadrata, odnosno neobjašnjena regresijom-RSS (engl. Residual Sum of Square) iznosi 1065510 (1,06551e+006) je zbroj kvadrata rezidualnih odstupanja (zbroj kvadrata odstupanja opaženih od regresijskih vrijednosti). Ukupna suma kvadrata, odnosno TSS (engl. Total Sum of Square) iznosi 4586900 (4,58696e+0,07) je zbroj kvadrata odstupanja empirijskih vrijednosti zavisne varijable od prosjeka. Nadalje, sredina kvadrata neprotumačenih odstupanja

𝑅𝑆𝑆 (𝑛−𝑘−1)

jednaka je

1065510 10

i predstavlja procijenjenu

varijancu regresije 𝜎̂ te iznosi 106551. 2

Koeficijent determinacije (engl. R^2) iznosi 0,976771, a tumači se kao proporcija odstupanja protumačenih regresijskim modelom. Testira li se značajnost regresorske varijable u modelu, hipoteze testa su: 𝐻0 : 𝛽1 = 0 𝐻1 : 𝛽1 ≠ 0 Empirijska vrijednost test veličine (engl. F) na temelju ANOVA tablice je: 𝐹=

𝐸𝑆𝑆/𝑘 44804100/1 = = 420,495 𝑅𝑆𝑆/(𝑛 − 𝑘 − 1) 1065510/10

Ako se test provodi uz razinu signifikantnosti 𝛼 = 0,05, tada je u konkretnom slučaju (n = 12) teorijska 0,05 vrijednost F-distribucije za (n-k-1)=(12-1-1)=(10,1) stupnjeva slobode: 𝐹(1;10) = 4,96 . Budući da je 𝛼 empirijski F-omjer 𝐹 > 𝐹(𝑛−𝑘−1) nulta se hipoteza odbacuje uz danu razinu signifikantnosti. Alternativno, ako se odluka donosi temeljem p-vrijednosti (engl. p-value), tada se nulta hipoteza odbacuje kao neistinita jer je p-vrijednost<α.

8.5. PREDOČAVANJE REZULTATA REGRESIJSKE ANALIZE Postoji više načina ispisa i predočavanja rezultata regresijske analize. Odabir pokazatelja koji će se prikazati zavisi od potreba konkretnog istraživanja. Prije pojave računala i programskih potpora postojao je standardizirani način prikazivanja rezultata regresijske analize. Taj će način biti prikazan na sljedećem primjeru. PRIMJER 14

Rezultati regresijske analize za primjer izdataka

𝑌̂𝑖 = 7,6182 + 0,814𝑋𝑖 𝑠𝑒 = (3,0523)(0,0112) 𝑡 = (2,4958)(7,2624) 𝑅 2 = 0,8682

(71)

𝑝 = (0,0372)(0,0001) 𝑠. 𝑠. = 8 U izrazu (71) brojevi u prvom skupu zagrada predstavljaju ocijenjene standardne pogreške (se) ocijenjenih regresijskih koeficijenata. Brojevi u drugom skupu zagrada predstavljaju ocijenjene t vrijednosti pod pretpostavkom nulte hipoteze da je stvarna populacijska

63

II. DIO REGRESIJSKA ANALIZA

8. Poglavlje: Mjerenje pouzdanosti regresijskog modela

vrijednost svakog regresijskog koeficijenta pojedinačno jednaka nuli (dane t vrijednosti jednostavno su odnos ocijenjenih regresijskih koeficijenata i njihovih standardnih grešaka). Vrijednosti u trećem skupu zagrada predstavljaju p-vrijednosti izračunatih t vrijednosti. Prema konvenciji, ukoliko se ne specificira određena nulta hipoteza, pretpostavlja se nulta hipoteza da vrijednosti populacijskih parametara iznose nula. Te ako se nulta hipoteza odbaci (u slučaju signifikantnosti statističkog testa), to znači da su stvarne vrijednosti populacijskih parametara različite od nule. Prednost ovakvog predočavanja regresijskih rezultata je što se na prvi pogled može odrediti da li su ocijenjeni regresijski parametri pojedinačno statistički signifikantni, odnosno signifikantno različiti od nule. Određivanjem p vrijednosti može se odrediti točna razina signifikantnosti ocijenjene t vrijednosti. U primjeru 6 o izdacima u odnosu na dohodak t vrijednosti regresijskog koeficijenta iznosi 7,2624, a njegova je p vrijednost praktički nula. Što je manja p vrijednost, jači su dokazi odbacivanja nulte hipoteze. Napominje se da je, prilikom odlučivanja o prihvaćanju ili odbacivanju nulte hipoteze, potrebno unaprijed odrediti p vrijednost koju se je spremni prihvatiti (kritična p vrijednost), te usporediti izračunatu p vrijednost s kritičnom p vrijednošću. Ukoliko je izračunata p vrijednost manja od kritične p vrijednosti, nulta hipoteza se odbacuje. Ukoliko je izračunata p vrijednost veća od kritične p vrijednosti nulta hipoteza se ne smije odbaciti. Tradicionalno se kritična p vrijednost fiksira na razini od 1, 5 ili 10 %. U izrazu (71) stvarna p vrijednost t koeficijenta od 7,2624 iznosi 0,0001. Ukoliko bi odabrana kritična razina p vrijednosti iznosila 5%, nulta hipoteza bi se odbacila, jer je izračunata p vrijednost od 0,0001 mnogo manja od 5% (0,05). Ocjenjivanje modela i regresijska analiza radi se danas skoro isključivo uz pomoć računala i programske potpore. Potrebno je naučiti čitati računalno izvješće i znati korektno interpretirati ključne rezultate regresijske analize. Postoji dosta statističkih ili ekonometrijskih programskih paketa s kojima se može obavljati ekonometrijska ocjena i analiza. Najčešće upotrebljavani statistički paketi su: SAS, SPSS, STATISTICA, a od ekonometrijskih RATS; TSP; EVIEWS, SHAZAM, SORITEC.

64

II. DIO REGRESIJSKA ANALIZA

8. Poglavlje: Mjerenje pouzdanosti regresijskog modela

ZADACI ZA VJEŽBU 1.

2.

Na osnovi godišnjih podataka za razdoblje od 1969. do 1978. godine ocijenjen je jednostavni regresijski model: 𝑌̂𝑡 = −128,94 + 0,9113𝑋𝑡 . Raspolažemo sa sljedećim podacima:  ∑ 𝑒𝑖2 = 87312,93  𝑅 2 = 0,966. Temeljem navedenih podataka: a) Izračunajte standardnu grešku regresije b) Ispunite ANOVA tablicu c) Provedite test o značajnosti regresije. Razina signifikantnosti je 0,05 Ocijenjen je modeli prodaje jedne vrste kave u 12 prodavaonica na temelju podataka u mjesecu ožujku, i to 𝑌̂𝑖 = 𝛼0 + 𝛼1 𝑋1𝑖 + 𝑒𝑖 . Varijable modela su Y: količina prodane kave u kg te X: cijena kave u kunama. Rezultati provedene regresijske analize su dani u sljedećoj tablici. ^const X1 (t-vrij.) R2 F

3.

a) Testirajte značajnost nezavisne varijable u modelu. Razina signifikantnosti je 5%. b) Provedite test o značajnosti regresije za model. Razina signifikantnosti je 5%. c) Na osnovi raspoloživih pokazatelja napišite da li je model prihvatljiv i zašto. Izračunajte koeficijent determinacije i ocijenite reprezentativnost funkcije ako raspolažete s ocijenjenim modelom: 𝑌̂𝑖 = 79,191 + 5,657𝑋𝑖 te podacima iz tablice: Y X

4.

MODEL 18846,4 -247,92 (-5,06) 0,6910 25,60

78 0

88 1

91 2

94 3

98 4

111 5

Ocijenjen je sljedeći model 𝑌̂𝑖 = 2,5783 + 1,7335𝑋𝑖 . Za dani model: a) Odredite koeficijent determinacije, te b) Ispitajte signifikantnost funkcije uz =5%, ukoliko raspolažemo sljedećim pokazateljima  TSS=4,5067  ESS=4,4952  RSS=0,0115  n=3

65

II. DIO REGRESIJSKA ANALIZA

8. Poglavlje: Mjerenje pouzdanosti regresijskog modela

RJEŠENJA ZADATAKA 1.

a) s = 104,71 b) izvor varijacije objašnjena neobjašnjena ukupna

suma kvadrata 2480714,42 87312,93 2568027,35

stupnjevi slobode 1 8 9

sredina kvadrata 2480714,42 10914,12 285336,37

Fvrijednost 227,294

c) H0:1= 0, HA:1 ≠ 0, F =227,294; F0,05(1, 8)=5,32. Nulta hipoteza se ne prihvaća. 2.

3.

a) H0: a1= 0; HA :a1≠ 0; t0,05 (10)=2,228. Nulta hipoteza se ne prihvaća. Nezavisna varijabla X1 značajna je za model. b) H0: a1= 0; HA :a1≠ 0; F=25,60, F0,05(1, 10)=4,96. Nulta hipoteza se ne prihvaća. c) Model je prihvatljiv, jer je nezavisna varijabla X1 značajna za model. Model objašnjava preko 69% varijacija zavisne varijable, što je dobar pokazatelj za podatke vremenskog presjeka. Model je također i statistički signifikantan. Y

X

ˆy i

78 88 91 94 98 111

0 1 2 3 4 5

79,191 84,848 90,505 96,162 101,819 107,476

Y

Y n



Yi  Y -15,333 -5,333 -2,333 0,667 4,667 17,667

Yˆi  Y -14,142 -8,485 -2,825 2,829 8,486 14,143

Yi  Yˆi -1,191 3,159 0,495 -2,162 -3,819 3,524

TSS

ESS

RSS

235,1 28,44 5,442 0,445 21,78 312,123 603,33

199,996 71,995 7,997 8,003 72,012 200,024 560,03

1,418 9,935 0,245 4,674 14,584 12,418 43,274

560  93,333 6

 ˆy  Y   Y  Y 

2

R2 

4.

ESS  TSS

i

2

i



560 ,01  0 ,92821 603,33

92,82% varijacija zavisne varijable objašnjeno je pomoću nezavisne varijable. a) R 2  ESS  4 ,4952  0 ,997448 b) F 

TSS 4 ,5067 ESS /( k ) 4 ,4952 / 1   390 ,88 RSS /( n  k  1 ) 0 ,0115 /( 3  1  1 )

H0:1=2=0 H1:1=2≠0 F0,05(1,1)=161 F  FC. Funkcijska veza je signifikantna.

66

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

9. POGLAVLJE

VIŠESTRUKI LINEARNI REGRESIJSKI MODEL

U

prethodnim poglavljima razmatran je linearni regresijski model s dvije varijable, sastavljen od jedne nezavisne i jedne zavisne varijable. Takav se model sada proširuje pa se razmatra mogućnost da više nezavisnih varijabli utječu na zavisnu varijablu. Regresijski model s više od jedne nezavisne varijable poznat je kao višestruki regresijski model; višestruki upravo zbog višestrukih utjecaja (eksplanatornih varijabli) koje djeluju na zavisnu varijablu. Rasprava o višestrukom regresijskom modelu sastojat će se u pronalaženju odgovora na sljedećih nekoliko pitanja: 1. Kako se procjenjuje višestruki regresijski mode? Da li je postupak procjene drugačiji od postupka procjene regresijskog modela s dvije varijable? 2. Da li se postupak testiranja hipoteza razlikuje od onog u modelu s dvije varijable? 3. Postoji li neka specifična obilježja višestruke regresije koja se ne susreću u modelu s dvije varijable? Za dobiti odgovore na ova i dodatna pitanja razmotrit će se najjednostavniji višestruki regresijski model: model s tri varijable u kojem se ponašanje zavisne varijable Y analizira u odnosu na dvije nezavisne varijable X1 i X2.

9. 1. LINEARNI REGRESIJSKI MODEL S TRI VARIJABLE Regresijska funkcija populacije za model s tri varijable u nestohastičkom obliku piše se 𝐸(𝑌𝑡 ) = 𝛽1 + 𝛽2 𝑋2𝑡 + 𝛽3 𝑋3𝑡

(72)

𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + 𝛽3 𝑋3𝑡 + 𝑢𝑡

(73)

te u stohastičkom obliku

gdje je Y X2 i X3 u t

1 2 i  3

 zavisna varijabla  nezavisne varijable  slučajno odstupanje  t-to opažanje (u slučaju podataka vremenskog presjeka upotrebljava se indeks i)  konstantni član, odnosno odsječak na ordinati, a predstavlja prosječnu vrijednost Y kada su X2 i X3 jednaki nuli  parcijalni regresijski koeficijenti

Izraz (73) daje uvjetnu prosječnu vrijednost Y, uvjetnu za dane ili fiksirane vrijednosti varijabli X2 i X3. Stoga je, kao i u modelu s dvije varijable, višestruka regresijska analiza uvjetna regresijska analiza, uvjetna za dane vrijednosti nezavisnih varijable. Dobije se tako prosječna

67

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

ili srednja vrijednost Y za fiksirane vrijednosti varijabli X. Stohastički oblik, izraz (73) tvrdi da se svaka pojedinačna vrijednost Y može prikazati kao zbroj dviju komponenti:  

sustavne ili determinističke komponente (𝛽1 + 𝛽2 𝑋2𝑡 + 𝛽3 𝑋3𝑡 ), koja predstavlja srednju vrijednost E(Yt), te ut, koja predstavlja nesustavnu ili stohastičnu komponentu, određenu čimbenicima drugačijima od X2 i X3.

ZNAČENJE PARCIJALNIH REGRESIJSKIH KOEFICIJENATA

Regresijski koeficijenti 2 i 3 iz izraza (72) poznati su kao parcijalni regresijski koeficijenti ili parcijalni koeficijenti smjera. Koeficijent 2 mjeri promjenu u srednjoj vrijednosti Y, E(Y), za jedinicu promjene u varijabli X2, kada je vrijednost varijable X3 konstantna. Analogno, 3 mjeri promjenu u srednjoj vrijednosti Y za jedinicu promjene u X3, kada je vrijednost X2 konstantna. Ovo je specifična značajka višestruke regresije. U regresijskom modelu s tri varijable mora se utvrditi koji dio promjene u srednjoj vrijednosti Y, može biti pripisan varijabli X2, a koji varijabli X3. PRIMJER 15

Pretpostavimo da imamo sljedeću regresijsku funkciju populacije:

𝑌𝑡 = 15 − 1,2𝑋2𝑡 + 0,8𝑋3𝑡

(74)

Pretpostavimo nadalje, da je vrijednost varijable X 3 fiksirana na konstantnoj vrijednosti od 10. Uvrštavanjem dane vrijednosti u izraz (74) dobije se

𝑌𝑡 = 15 − 1,2𝑋2𝑡 + 0,8 ∙ (10) 𝑌𝑡 = (15 + 8) − 1,2𝑋2𝑡 𝑌𝑡 = 23 − 1,2𝑋2𝑡

(75)

Koeficijent nagiba 𝛽2 = −1,2 označava da srednja vrijednost Y opada za 1,2 za svaku jediničnu promjenu varijable X2, kada je X3 konstantna. Ovakav koeficijent nagiba naziva se parcijalni regresijski koeficijent. Analogno, ako je vrijednost X2 konstantna na vrijednosti od 5 dobije se

𝑌𝑡 = 15 − 1,2 ∙ (5) + 0,8𝑋3𝑡 𝑌𝑡 = 9 + 0,8𝑋3𝑡

(76)

Koeficijent nagiba 3= 0,8 označava da srednja vrijednost Y raste za 0,8 za svaku jediničnu promjenu varijable X3, kada je X2 konstanta. I ovaj je regresijski koeficijent parcijalni regresijski koeficijent.

Parcijalni regresijski koeficijent odražava (parcijalni) utjecaj jedne od nezavisnih varijabli na srednju vrijednost zavisne varijable, kada su vrijednosti ostalih nezavisnih varijabli, uključenih u model održavane konstantnima. Ovakvo specifično obilježje višestruke regresije, omogućava, ne samo uključivanje većeg broja nezavisnih varijabli u model, već i «izoliranje» utjecaja svake pojedine varijable X na varijablu Y od ostalih X varijabli uključenih u model.

9. 2. PRETPOSTAVKE VIŠESTRUKOG LINEARNOG REGRESIJSKOG MODELA Kao i u slučaju jednostavnog linearnog regresijskog modela, regresijska analiza višestrukog modela započinje procjenom parametara. U svrhu dobivanja ocjena parametara djeluje se u okvirima klasičnog linearnog regresijskog modela (CLRM) uvedenog u prijašnjim poglavljima

68

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

te se, za ocjenu regresijskih parametara, upotrebljava metoda najmanjih kvadrata (OLS metoda). Za model iz izraza (73) vrijede sljedeće pretpostavke: P1

Regresijski model je linearan u parametrima te je korektno specificiran.

P2

Objasnidbene varijable X2 i X3 nisu korelirane sa slučajnim odstupanjima u, tj. kovarijanca između svake objasnidbene varijable i slučajne varijable u jednaka je nuli. Ukoliko su X2 i X3 nestohastične ova je pretpostavka automatski ispunjena.

P3

Očekivana vrijednost odstupanja jednaka je nuli: E(ui)=0.

P4

Homoskedastičnost: varijanca slučajne varijable u konstanta je i jednaka 2.

P5

Odsutnost autokorelacije: vrijednosti slučajne varijable u međusobno su nekorelirane slučajne veličine, tj. njihova je kovarijanca jednaka nuli: cov(ui,uj)=0, i≠j.

P6

Odsutnost multikolinearnosti: ne postoji egzaktna linearna kombinacija nezavisnih varijabli, tj. ne postoji ovisnost oblika.

P7

Slučajna odstupanja su normalno distribuirana s matematičkim očekivanjem jednakim nula i homoskedastičnom varijancom 2: uiN(0, 2)

Navedene pretpostavke, osim pretpostavke P6, iste su kao za model s dvije varijable.

9.3. OCJENA PARAMETARA VIŠESTRUKE REGRESIJE Za procjenu parametara iz izraza (73) koristi se metoda najmanjih kvadrata.

9.3.1. OLS PROCJENITELJI Za definiranje OLS ocjenjivača potrebno je napisati regresijsku funkciju uzorka koja odgovara regresijskoj funkciji populacije iz izraza (73), kako slijedi: 𝑌𝑡 = 𝛽̂1 + 𝛽̂2 𝑋2𝑡 + 𝛽̂3 𝑋3𝑡 + 𝑒𝑡

(77)

gdje 𝑒𝑡 predstavlja rezidual, a 𝛽̂𝑘 procjenitelje populacijskih koeficijenata. Prema načelu metode najmanjih kvadrata vrijednosti nepoznatih parametara odabrane su na način da je suma kvadrata reziduala što je moguće manja: ∑ 𝑒𝑖2 . Algebarskim izračunima dobiju se izrazi za OLS ocjenjivače parametara: 

2  

3 

m y 2 m33  m y 3 m23 m22 m33  m 2 23 m y 3 m22  m y 2 m23 m22 m33  m 2 23 

(78)



ˆ 1  Y   2 X 2   3 X 3 69

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

gdje je: m yk   ( Yi  Y )( X ik  X k ) i

(79)

m jk   ( X ij  X j )( X ik  X k ) i

PRIMJER 16

Izračun parcijalnih regresijskih koeficijenata Pretpostavimo da moramo ocijeniti vezu između cijene određenog turističkog aranžmana (X 3), troškova oglašavanja za dati turistički aranžman (X2) te broj prodanih turističkih aranžmana (Y) u 12 uzastopnih dana. Dan je model višestruke linearne regresije:

𝑌𝑡 = 𝛽̂1 + 𝛽̂2 𝑋2𝑡 + 𝛽̂3 𝑋3𝑡 + 𝑒𝑡 Podaci o varijablama dani su u tablici 13. Tablica 13: Broj prodanih aranžmana, cijena aranžmana i troškovi oglašavanja

broj prodanih aranžmana

cijena aranžmana 55 70 90 100 90 105 80 110 125 115 130 130

troškovi oglašavanja

100 90 80 70 70 70 70 65 60 60 55 50

5,50 6,30 7,20 7,0 6,30 7,35 5,60 7,15 7,50 6,90 7,15 6,50

Tablica međurezultata za izračun ocijenjenih parametara. Tablica 14: Tablica međurezultata Y

X2

X3

55 70 90 100 90 105 80 110 125 115 130 130 Σ

100 90 80 70 70 70 70 65 60 60 55 50

5,50 6,30 7,20 7,0 6,30 7,35 5,60 7,15 7,50 6,90 7,15 6,50

( Yi  Y )

( X 2i  X 2 )

-45 -30 -10 0 -10 5 -20 10 25 15 30 30

30 20 10 0 0 0 0 -5 -10 -10 -15 -20

my2 -1350 -600 -100 0 0 0 0 -50 -250 -150 -450 -600 -3550

( X 3i  X 3 ) -1,2 -0,4 0,5 0,3 -0,4 0,65 -1,1 0,45 0,8 0,2 0,45 -0,2 0,45

m33 1,4 0,16 0,25 0,09 0,16 0,42 1,21 0,20 0,64 0,04 0,20 0,04 4,81

my3 54 12 -5 0 4 3,25 22 4,5 20 3 13,5 -6 125,25

m23 -36 -8 5 0 0 0 0 -2,25 -8 -2 -6,75 4 -54

m22

m yy

900 400 100 0 0 0 0 25 100 100 225 400 2250

2025 900 100 0 100 25 400 100 625 225 900 900 6300

Rezultati osnovnih izračuna su sljedeći: Y  100

X 2  70

X 3  6 ,7

m22=2250 m33=4,81 m23=-54 my2=-3550 my3=125,25 myy=6300 k=3 (dvije objasnidbene i jedna zavisna varijabla)

70

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

Iz izraza (78) računaju se vrijednosti parametara: 

2 

m y 2 m33  m y 3 m23 m22 m33  m

2

m y 3 m22  m y 2 m23



3 

23

 3550  4,81  125,25   54  2 2250  4,81   54  1,3





ˆ 1  Y   2 X 2   3 X 3

m22 m33  m 2 23

125,25  2250   3350    54  2 2250  4 ,81   54   11,3



 100   1,3   70  11,3  6 ,7  115,29

Prema tome, ocijenjena jednadžba regresije glasi:

Yˆi  115 ,29  1,3 X i 2  11,3 X 13   i To znači da ocjenjujemo da bi se smanjenje cijene turističkog aranžmana od jedne novčane jedinice, uz nepromijenjene troškove oglašavanja, odrazilo na povećanje broja prodanih aranžmana za 1,3, dok bi porast troškova oglašavanja za jednu novčanu jedinicu, uz nepromijenjene cijene, prouzrokovao povećanje prodaje za 11,3 turističkih aranžmana.

9.3.2. VARIJANCA I STANDARDNA POGREŠKA OLS PROCJENITELJA

Nakon određivanja OLS procjenitelja konstantnog člana i parcijalnih regresijskih koeficijenata, mogu se izračunati njihove varijance i standardne pogreške. Varijance i standardne pogreške daju uvid o varijabilnosti procjenitelja od uzorka do uzorka. Kao i u slučaju linearnog regresijskog modela s dvije varijable standardne pogreške potrebne su za: (1) određivanje intervala povjerenja za stvarne vrijednosti parametara te za (2) testiranje hipoteza. Izrazi za određivanje varijance i standardne pogreške konstantnog člana i parcijalnih regresijskih koeficijenata su:  1 X 22 X 2  X 32 X 2  2 X 2 X 3 x x   3t  2t  2 t 3t    2 ˆ var(  1 )    2 2 2 n   x2t  x3t   x2t x3t  

(80)

se( ˆ 1 )  var( ˆ 1 )

(81)



 var( ˆ 2 )   



x

2 3t

 x  x    x 2 2t

2 3t

x



2

2 t 3t

   2 

se( ˆ 2 )  var ˆ 2   x22t var( ˆ 3 )     x22t  x32t   x2t x3t



se( ˆ 3 )  var( ˆ 3 )

(82)

(83)    2 2 



(84)

(85)

NAPOMENA: u izrazima (80) do (85) mala slova označavaju devijaciju srednjih vrijednosti uzorka pa je

̅). 𝑥𝑖 = (𝑋𝑖 − 𝑋 U izrazima (80) i (85) 2 je homoskedastična varijanca slučajnog odstupanja ut OLS-ove nepoznate varijance: e2 (86) ˆ 2   t n3

71

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

Drugi korijen ocijenjene varijance iz izraza (86) daje standardnu grešku ocjene:

ˆ  ˆ 2

(87)

Izraz (87) daje vrijednost standardne pogreške regresije, koja predstavlja standardnu devijaciju vrijednosti Y oko procijenjenog regresijskog pravca.

9.4. KOEFICIJENT VIŠESTRUKE DETERMINACIJE R2 U jednostavnom linearnom regresijskom modelu s dvije varijable koeficijent determinacije predstavlja mjeru prilagođenosti regresijskog pravca uzorka, odnosno predočuje proporciju ukupnih varijacija u zavisnoj varijabli Y koje su objašnjene nezavisnom varijablom. U slučaju linearne regresije s tri varijable kao u izrazu (73), želimo znati koliki je udio varijacija u zavisnoj varijabli posljedica objašnjenih varijacija zbog nezavisnih varijabli X2 i X3. Taj je pokazatelj dan koeficijentom višestruke determinacije, R2 (ili r2). Kao u slučaju modela s dvije varijable, vrijedi jednakost: TSS=ESS+RSS

(88)

gdje je: TSS ESS RSS

 ukupan zbroj kvadrata zavisne varijable  objašnjeni zbroj kvadrata (objašnjen od svih nezavisnih varijabli)  rezidualni zbroj kvadrata

Koeficijent višestruke determinacije dan je izrazom: 𝑅2 =

∑ 𝑒𝑖2 𝐸𝑆𝑆 𝑅𝑆𝑆 =1− =1− 𝑇𝑆𝑆 𝑇𝑆𝑆 ∑(𝑌𝑖 − 𝑌̅)2

(89)

Tako definirani koeficijent determinacije je omjer zbroja kvadrata protumačenoga modelom i ukupnog zbroja kvadrata, te predstavlja opći pokazatelj kvalitete modela. Napominje se da je drugi korijen koeficijenta višestruke determinacije, koeficijent višestruke korelacije, r. KORIGIRANI KOEFICIJENT DETERMINACIJE

Osnovni problem koeficijenta determinacije jest da dodavanjem novih objasnidbenih varijabli u funkciju, R2 raste, čak i onda kada nova objasnidbena varijabla ništa ne znači za model. Taj se nedostatak rješava korigiranim koeficijentom determinacije. Korigirani koeficijent determinacije dan je izrazom: 𝑅̅ 2 = 1 −

𝑛−1 (1 − 𝑅 2 ) 𝑛 − (𝑘 + 1)

(90)

Korigirani koeficijent determinacije jednak je koeficijentu višestruke (multiple) determinacije ili je manji od njega. Pri računanju korigiranog koeficijenta determinacije uzima se u obzir broj stupnjeva slobode, koji za fiksno n zavisi o broju nezavisnih varijabli u modelu. Uvođenjem varijable koja je nerelevantna za model, smanjuje se vrijednost korigiranog koeficijenta determinacije, pa ona može postati čak i negativna, naročito ako se u funkciju uvodi više nerelevantnih varijabli, a R2 ima malu vrijednost.

72

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

PRIMJER 17

Ocjena parametara u modelu višestruke linearne regresije na primjeru aukcijskih cijena antiknih satova Poznata njemačka tvrtka održava godišnju aukciju antiknih satova. Podaci za 32 antikna sata (starost sata, broj ponuđača te cijena sata) dani su u tablici . Tablica 15: Aukcijski podaci o cijenama, starosti satova i broju ponuđača broj opažanja

starost u godinama

cijena

broj ponuđača

broj opažanja

starost u godinama

cijena

broj ponuđača

1

1235

127

13

20

1545

175

8

2

1080

115

12

21

729

108

6

3

845

127

7

22

1792

179

9

4

1552

150

9

23

1175

111

15

5

1047

156

6

24

1593

187

8

6

1979

182

11

25

1147

137

8

7

1822

156

12

26

1092

153

6

8

1253

132

10

27

1152

117

13

9

1297

137

9

28

1336

126

10

10

946

113

9

29

785

111

7

11

1713

137

15

30

744

115

7

12

1024

117

11

31

1356

194

5

13

2131

170

14

32

1262

168

7

14

1550

182

8

15

1884

162

11

16

2041

184

10

17

854

143

6

18

1483

159

9

19

1055

108

14

Neka je zavisna varijabla Y aukcijska cijena, X2 = starost sata, X3 = broj ponuđača. A priori se očekuje pozitivna veza između Y i dvije nezavisne varijable. U primjeru je pretpostavljeno da cijena pobjedničke ponude zavisi o starosti sata – što je sat stariji to je viša aukcijska cijena, ceteris paribus – tako da se očekuje pozitivan odnos dvije varijable. Analogno, što je veći broj ponuđača to je cijena sata viša, jer veći broj ponuđača za određeni sat, sugerira da je dani sat vrjedniji, što rezultira pozitivnim odnosom između dviju varijabli. Iz podataka iz tablice 15 dobiveni su sljedeći rezultati regresijske analize upotrebom Microsoft Excel i Gretl programske potpore. Slika 20: Rezultati regresijske analize primjenom MsExcel programske potpore SUMMARY OUTPUT Regression Statistics Multiple R

0,94

R Square Adjusted R Square Standard Error

0,89 0,88 134,61

Observations

32

ANOVA df Regression

SS

MS

2

4278295

2139147

Residual

29

525462,2

18119,38

Total

31

4803757

F

Significance F 118,06

0,00

73

II. DIO REGRESIJSKA ANALIZA

Coefficients Intercept

9. Poglavlje: Višestruki linearni regresijski model Standard Error

Pvalue

t Stat

Lower 95%

Upper 95%

Lower 95,0%

Upper 95,0%

-1336,05

175,27

-7,62

0,00

-1694,52

-977,58

-1694,52

-977,58

starost

12,74

0,91

13,97

0,00

10,88

14,61

10,88

14,61

ponude

85,76

8,80

9,74

0,00

67,76

103,77

67,76

103,77

RESIDUAL OUTPUT Predicted Observation cijena

Observati on

Residuals

Predicted cijena

Residuals

1

1397,04

-162,04

20

1579,81

-34,81

2

1158,38

-78,38

21

554,60

174,40

3 4

882,45 1347,03

-37,45 204,97

22 23

1716,53 1364,71

75,47 -189,71

5

1166,19

-119,19

24

1732,70

-139,70

6

1926,29

52,71

25

1095,63

51,37

7

1680,78

141,22

26

1127,97

-35,97

8

1203,45

49,55

27

1269,63

-117,63

9

1181,40

115,60

28

1127,01

208,99

10

875,60

70,40

29

678,59

106,41

11

1695,98

17,02

30

729,56

14,44

12

1098,10

-74,10

31

1564,60

-208,60

13

2030,68

100,32

32

1404,85

-142,85

14

1669,00

-119,00

15

1671,46

212,54

16

1866,01

174,99

17

1000,55

-146,55

18

1461,71

21,29

19

1240,72

-185,72

Slika 21: Rezultati regresijske analize primjenom Microsoft Excel programske potpore

Model 1: OLS, using observations 1-32; Dependent variable: cijena Coefficient Std. Error t-ratio p-value const -1336,05 175,272 -7,6227 <0,00001 starost_ 12,7414 0,912356 13,9654 <0,00001 ponude 85,7641 8,80199 9,7437 <0,00001 Mean dependent var Sum squared resid R-squared F(2, 29) Log-likelihood Schwarz criterion

1328,094 525462,2 0,890614 118,0585 -200,7068 411,8108

S.D. dependent var S.E. of regression Adjusted R-squared P-value(F) Akaike criterion Hannan-Quinn

393,6495 134,6083 0,883070 1,16e-14 407,4136 408,8711

Sažeti rezultati regresijske analize dani su sljedećim izrazom:

𝑌̂𝑖 = −1336,049 + 12,741𝑋2𝑖 + 85,764𝑋2𝑖 𝑠𝑒 = (175,272)(0,912) (8,802) 𝑡 = (−7,6226)(13,9653) (9,7437) 𝑝 = (0,00001)(0,00001) (0,00001) 𝑅 2 = 0,891 𝐹 = 118,058 𝑠. 𝑠. = (2; 29)

(91)

74

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

Aukcijska cijena pozitivno je korelirana s obje nezavisne varijable, cijenom sata i brojem ponuđača. Interpretacija koeficijenta smjera od 12,741 znači da, održavajući ostale varijable konstantnima, ako se starost sata povećava za jednu godinu, prosječna aukcijska cijena raste za 12,741 boda. Analogno, održavajući ostale varijable konstantnima, ako se broj ponuđača poveća za jedan, aukcijska cijena sata raste za 85,764 boda. Negativna vrijednost konstantnog člana nema ekonomskog značenja. Vrijednost R2 od 0,891 znači da dvije nezavisne varijable procjenjuju oko 89% varijacija u aukcijskoj cijeni. Značenje F vrijednosti biti će objašnjeno dalje u tekstu.

9.5. TESTIRANJE HIPOTEZA U MODELU VIŠESTRUKE LINEARNE REGRESIJE Iako koeficijent višestruke determinacije mjeri prilagođenost ocijenjenog regresijskog modela, ne pokazuje da li su ocijenjeni parcijalni regresijski koeficijenti statistički značajni, odnosno statistički različiti od nule. Prvi korak u statističkoj analizi modela višestruke linearne regresije sastoji se u procjeni parametara. Na postupak procjene parametara nadovezuje se postupak testiranja hipoteza. Postoji više testova, a najčešće se koriste sljedeći testovi: (1) Test značajnosti regresije, odnosno svih parametara u modelu, ili što je isto test značajnosti prisutnosti svih regresorskih varijabli u modelu – skupni test. (2) Test o značajnosti jednog parametra (jedne regresorske varijable u modelu) – pojedinačni test. (3) Test značajnosti podskupa parametara (test značajnosti prisutnosti podskupa regresorskih varijabli u modelu) – parcijalni test. U nastavku će biti objašnjeni postupci provođenja pojedinačnog i skupnog testa. TEST O ZNAČAJNOSTI JEDNOG PARAMETRA – POJEDINAČNI TEST

Za postupak testiranja potrebno je odrediti sampling distribuciju za 𝛽̂𝑘 kao procjenitelja od k. U slučaju modela s dvije varijable dokazano je kako su OLS procjenitelji 𝛽̂𝑘 normalno distribuirani pod pretpostavkom da slučajno odstupanje u slijedi normalnu distribuciju. U poglavlju o pretpostavkama višestrukog linearnog regresijskog modela u pretpostavci P7, također se pretpostavlja da slučajno odstupanje u slijedi normalnu distribuciju sa očekivanjem nula i konstantnom varijancom 2. Zbog te i ostalih pretpostavki, može se dokazati da 𝛽̂𝑘 slijede normalnu distribuciju. No, kao i u slučaju modela s dvije varijable, ako se, stvarna, ali nepoznata varijanca 2 zamijeni njenim nepristranim ocjenjivačem ˆ 2 danim izrazom (86), OLS procjenitelj slijedi t distribuciju sa (n-3) stupnja slobode:

t

ˆ 1   1 ~ t n-3 se( ˆ 1 )

t

ˆ 2   2 ~ t n-3 se( ˆ 2 )

t

ˆ 3   3 ~ t n-3 se( ˆ 3 )

(92)

PRIMJER 18

75

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

Testiranje hipoteze o značajnosti jednoga parametra Pretpostavimo da želimo istražiti hipotezu da starost sata ne utječe na njegovu cijenu. Drugim riječima, želimo testirati nultu hipotezu: 𝐻0 : 𝛽2 = 0 𝐻1 : 𝛽2 ≠ 0 U režimu nulte hipoteze, starost antiknih satova nema utjecaja na njihovu cijenu, dok alternativna hipoteza tvrdi suprotno: starost satova ima utjecaja, pozitivnog ili negativnog, na njihovu cijenu. Testiranje sustava hipoteza počinje izračunom t vrijednosti: ˆ   2 t 2 ~ t n -3 (93) se( ˆ 2 ) Napomena: 2=0 Izračunata t-vrijednost slijedi t distribuciju s (n-3)=29 stupnjeva slobode, budući da je n=32 u razmatranom primjeru. Iz rezultata regresijske analize iz izraza (93) imamo: 𝑡=

12,741 − 0 = 13,97 0,912

(94)

Temeljem izračunate t vrijednosti donosi se zaključak o odbacivanju ili prihvaćanju nulte hipoteze da starost sata ne utječe na njegovu aukcijsku cijenu. Iz tablice Studentove t-distribucije očitamo kritične t vrijednosti za dvostrani test za 29 stupnjeva slobode za 0,05 razinu signifikantnosti, a ta vrijednost iznosi: 2,045. U tablici 9 o načinu donošenja odluka, u slučaju dvostranog t-testa, vidimo da ukoliko je izračunata tvrijednost veća od kritičnih t vrijednosti, na odabranoj razini signifikantnosti, odbacujemo nultu hipotezu kao netočnu. U primjeru se stoga, nulta hipoteza odbacuje kao netočna, jer je izračunata vrijednost t od 13,97 veća od kritične vrijednost. U istom primjeru, p vrijednost statistike od 7,2624 iznosi oko 0,00001. Što znači da bismo, u slučaju odbacivanja hipoteze o tome da je vrijednost koeficijenta regresije jednaka nuli, pogriješili jednom u 10 000 slučajeva.

TEST O ZNAČAJNOSTI SVIH PARAMETARA U MODELU – SKUPNI TEST

Test o značajnosti regresije oslanja se na sljedeće hipoteze

 0 :  2  3  0

(95)

U nultoj hipotezi sadržana je tvrdnja da niti jedna regresorska varijabla nije signifikantna u modelu, ili, što je isto, da su svi parametri uz regresorske varijable u modelu jednaki nuli. Alternativna hipoteza sadrži suprotnu tvrdnju, odnosno da postoji barem jedna regresorska varijabla koja je signifikantna za objašnjenje varijabilnosti zavisne varijable, tj. da postoji barem jedan parametar i različit od nule. Sadržaj nulte hipoteze da niti jedna regresorska varijabla nije signifikantna u modelu isto je kao i tvrditi da:

 0 : R2  0

(96)

odnosno da dvije nezavisne varijable objašnjavaju 0% varijacija u zavisnoj varijabli. Hipoteza dana izrazom (95) testira se tehnikom poznatom pod imenom analiza varijance (ANOVA).

Tablica 16: ANOVA tablica za regresijski model s 3 varijable

76

II. DIO REGRESIJSKA ANALIZA izvor varijacije objašnjena regresijom neobjašnjena regresijom (rezidualna odstupanja) ukupna

suma kvadrata 𝐸𝑆𝑆 = ∑(𝑌̂𝑖 − 𝑌̅ )2

𝑅𝑆𝑆 = ∑ 𝑒𝑖2 𝑇𝑆𝑆 = ∑(𝑌𝑖 − 𝑌̅)2

9. Poglavlje: Višestruki linearni regresijski model stupnjevi slobode

sredina kvadrata

k

𝐸𝑆𝑆 ∑(𝑌̂𝑖 − 𝑌̅)2 = 𝑘 𝑘

n-k-1

∑ 𝑒𝑖2 𝑅𝑆𝑆 = = 𝜎̂ 2 𝑛−𝑘−1 𝑛−𝑘−1

F-vrijednost

𝐹=

𝐸𝑆𝑆⁄𝑘 𝑅𝑆𝑆⁄(𝑛 − 𝑘 − 1)

n-1

Test veličina je empirijski F omjer: 𝐹=

𝐸𝑆𝑆⁄𝑘 𝑅 2 ⁄𝑘 = 2 𝑅𝑆𝑆⁄(𝑛 − 𝑘 − 1) (𝑅 − 1)⁄(𝑛 − 𝑘 − 1)

(97)

Brojčane vrijednosti za izračunavanje test veličine dane su u tablici ANOVA. Ako je nulta hipoteza istinita i ako varijable u modelu imaju opisana svojstva, tada se može pokazati da se test veličina ravna po F distribuciji s k i n-(k+1) stupnjeva slobode. Testira li se na razini signifikantnosti , odluka se donosi usporedbom empirijske test veličine i teorijske vrijednosti F-distribucije. Područje prihvaćanja nulte hipoteze jest 𝐹 < 𝐹𝛼,[𝑘,𝑛−𝑘−1]. Područje odbacivanja nulte hipoteze jest 𝐹 > 𝐹𝛼,[𝑘,𝑛−𝑘−1] . Prihvaćanjem nulte hipoteze prihvaća se pretpostavka da regresorske varijable nisu signifikantne u modelu. Ne prihvati li se nulta hipoteza, to znači da barem jedna od k regresorskih varijabli značajno pridonosi objašnjavanju varijacije zavisne varijable. PRIMJER 19

U primjeru o aukcijskim cijenama antiknih satova Gretl programskom potporom dobivena je sljedeća ANOVA tablica. Tablica 17: ANOVA tablica za regresijski model aukcijskih cijena antiknih satova Analysis of Variance:

Regression Residual Total

Sum of squares

df

Mean square

4,27829e+006 525462 4,80376e+006

2 29 31

2,13915e+006 18119,4 154960

R^2 = 4,27829e+006 / 4,80376e+006 = 0,890614 F(2, 29) = 2,13915e+006 / 18119,4 = 118,058 [p-value 1,16e-014]

Iz tablice je vidljivo da izračunata F vrijednosti iznosi 118,058 119. Pod nultom hipotezom da su 2=3=0, te pod danim pretpostavkama klasičnog standardnog linearnog regresijskog modela, znamo da izračunata F vrijednost slijedi F distribuciju s 2 stupnja slobode u brojniku i 29 stupnjeva slobode u nazivniku. Kritična F vrijednost iznosi 3,33. Izračunata F vrijednost veća je od kritične F vrijednosti te se nulta hipoteza odbacuje. PRIMJER 20

Višestruka linearna regresija – Analiza odnosa ostvarenog prometa u ugostiteljstvu u razdoblju od 1997.-2006. godine te broja poslovnih jedinica i indeksa neto plaća programskom potporom Gretl Varijable u analiziranom modelu su:

𝑦 𝑥1 𝑥2

 ostvareni promet u ugostiteljstvu u milijunima HRK, zavisna varijabla  broj poslovnih jedinica, nezavisna varijabla  indeks neto plaća, 2002=100, nezavisna varijabla

77

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

Potrebni podaci navedeni su u sljedećoj tablici. Tablica 18: Broj poslovnih jedinica u ugostiteljstvu, ostvareni promet i indeksi neto plaća godina 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006

jedinice 12919 12139 11406 11529 11190 13082 12725 13364 12772 12183

promet 2816,625 2649,857 2434,779 2781,05 2839,454 3242,059 3428,835 3736,535 3826,388 3980,57

plaća 79,2 83,9 92,4 95,5 97 100 103,8 108 109,6 111,7

Programskom potporom Gretl procijenjen je model višestruke linearne regresije metodom najmanjih kvadrata. Neki od rezultata navedeni su u sljedećoj tablici. Tablica 19: Broj poslovnih jedinica u ugostiteljstvu, ostvareni promet i indeksi neto plaća

Procijenjena jednadžba glasi 𝑦̂ = −4193,37 + 0,291367𝑥1 + 38,4688𝑥2 . Prvi regresijski koeficijent 𝛽̂1 = 0,291367 tumači se na sljedeći način: Poveća li se broj poslovnih jedinica za jedan, a indeksi neto plaća ostanu nepromijenjeni, promet će se u prosjeku povećati za 0,291367 milijuna HRK. Slično, drugi regresijski koeficijent 𝛽̂2 = 38,4688 tumači se kao prosječno povećanje prihoda u milijunima HRK za povećanje indeksa neto plaća za jedan indeksni poen, uz pretpostavku da je broj poslovnih jedinica konstantan. Prva se regresijska vrijednost 𝑦̂1 prometa dobiva se tako da se u procijenjenu jednadžbu uvrsti prva vrijednost 𝑥11 = 12919 za broj poslovnih jedinica i prva vrijednost 𝑥12 = 79,2 za indekse neto plaća, pa je: 𝑦̂1 = −4193,37 + 0,291367𝑥1 + 38,4688𝑥2 𝑦̂1 = −4193,37 + 0,291367 ∙ 12919 + 38,4688 ∙ 79,2 = 2617,52 Dobivena regresijska vrijednost interpretira se na sljedeći način: Za 𝑥11 = 12919 poslovnih jedinica i vrijednost indeksa neto plaća (2002=100) 𝑥12 = 79,2, očekivana vrijednost prometa je 𝑦̂1 = 2617,52 mil. HRK. Stvarni promet 𝑦1 iznosi 2816,625 mil. HRK, a razliku čini rezidualno odstupanje. Temeljem rezultata regresijske analize provedeni su i jednosmjerni testovi o značajnosti pojedine regresorske varijable gornju granicu. Testiranje značajnosti regresorske varijable broj poslovnih jedinica u ugostiteljstvu 𝐻𝑜 : 𝛽1 = 0 𝐻1 : 𝛽1 > 0 𝑡1 =

𝛽̂1 0,291367 = = 3,132 𝑠𝛽̂1 0,09303000

Ako se test provodi uz razinu signifikantnosti 𝛼 = 0,05 𝑖𝑙𝑖 5%, tada je za n=12, 𝑡𝛼 (𝑛 − 2) = 𝑡0,057 = 1,895. Budući da je 𝑡 > 𝑡𝛼 (𝑛 − 2) proizlazi zaključak, da se uz razinu signifikantnosti 5%, nulta hipoteza

78

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

odbacuje, tj. ne prihvaća se pretpostavka da je varijabla broj poslovnih jedinica u ugostiteljstvu suvišna u modelu. Analogno, odluka o ishodu testa može se donijeti i na temelju p-vrijednosti (engl. p-value). Iz ispisa proizlazi da je: 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,0166 < 0,05 → 𝐻1 , tj. nulta se hipoteza odbacuje uz bilo koju uobičajenu razinu signifikantnosti α. Testiranje značajnosti regresorske varijable indeksi neto plaća

𝑡2 =

̂2 𝛽 𝑠𝛽̂

2

𝐻𝑜 : 𝛽1 = 0 𝐻1 : 𝛽1 > 0 =

38,4688 6,53605

= 5,886

Ako se test provodi uz razinu signifikantnosti 𝛼 = 0,05 𝑖𝑙𝑖 5%, tada je za n=12, 𝑡𝛼 (𝑛 − 2) = 𝑡0,05 7 = 1,895 . Budući da je 𝑡 > 𝑡𝛼 (𝑛 − 2) proizlazi zaključak, da se uz razinu signifikantnosti 5%, nulta hipoteza odbacuje, tj. ne prihvaća se pretpostavka da je varijabla broj poslovnih jedinica u ugostiteljstvu suvišna u modelu. Analogno, odluka o ishodu testa može se donijeti i na temelju p-vrijednosti (engl. p-value). Iz ispisa proizlazi da je: 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,0006 < 0,05 → 𝐻1 , tj. nulta se hipoteza odbacuje uz bilo koju uobičajenu razinu signifikantnosti α. U programskom paketu Gretl izvršena je i analiza varijance. Rezultati su dani u sljedećoj tablici. Tablica 20: Tablica analize varijance za model višestruke linearne regresije

Procijenjena varijanca regresije iznosi: RSS 297153 = = 42450 (n − k − 1) 7 Procijenjena varijanca znači da je prosječno kvadratno odstupanje od empirijskih regresijskih vrijednosti prometa 42450 mil. HRK. Koeficijent determinacije (engl. R^2) iznosi 0,889015 što znači da je odabranim modelom protumačeno 88,9% svih odstupanja. Proveden je i skupni test za podatke. Rezultati su sljedeći: σ2 = ̂

H0 : β1 = β2 = 0 H1 : ∃βj ≠ 0,

J = 1, 2.

Empirijska vrijednost test veličine (engl. F) na temelju ANOVA tablice je F = 28,0357. Ako se test provodi uz razinu signifikantnosti α = 0,05 , tada je u konkretnom slučaju teorijska vrijednost F0,05 α distribucije iznosi F(2;7) = 4,74. Budući da je empirijski F-omjer F > F(n−k−1) nulta se hipoteza odbacuje uz danu razinu signifikantnosti, odnosno zaključuje se da uz razinu signifikantnosti od 5% barem jedna regresorska varijabla ima signifikantnoga utjecaja na varijacije prometa. Alternativno, ako se odluka donosi temeljem p-vrijednosti (engl. p-value), tada se nulta hipoteza odbacuje kao neistinita jer je pvrijednost < α. Polazeći od dane empirijske razine signifikantnosti (p = 0,0005), zaključuje se da se nulta hipoteza odbacuje za bilo koju razinu signifikantnosti veću od 0,0005.

79

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

ZADACI ZA VJEŽBU 1.

Služba za marketing kompanije Ratex ispituje opseg prodaje proizvoda FIT u 2002. godini po segmentima tržišta. Pretpostavlja se da su glavni čimbenici (varijable) koje utječu na prodaju izdaci za reklamu (u 000 eura)-X2 i prodajna cijena (u eurima)-X3. Podaci o prodaju, izdaci za reklamu i prodajne cijene dani su u tablici. područje prodaja u 000 komada, izdaci za reklamu u 000 prodajna cijena u Y eura, X2 eurima, X3 I 331 220 129 II 299 285 138 III 301 256 121 IV 398 395 139 V 402 317 127 VI 487 500 111 VII 601 432 103 VIII 614 599 122 IX 703 701 101 X 711 794 110 XI 799 802 100 XII 927 980 99 XIII 990 1021 97 XIV 1015 1128 95 Ispitivanje se vrši pomoću modela višestruke linearne regresije programskom potporom te su dobiveni sljedeći rezultati regresijske analize: Model 1: OLS, using observations 1-14 Dependent variable: prodaja_u_000_komada__Y

const izdaci_za_reklamu_ u_000_eura__X prodajna_cijena_u_e urima__X

2.

Coefficient 611,17 0,669347

Std. Error 180,713 0,0652303

t-ratio 3,3820 10,2613

p-value 0,00612 <0,00001

-3,53077

1,29091

-2,7351

0,01940

Mean dependent var 612,7143 S.D. dependent var 253,7198 Sum squared resid 18665,68 S.E. of regression 41,19320 R-squared 0,977696 Adjusted R-squared 0,973640 F(2, 11) 241,0875 P-value(F) 8,24e-10 Log-likelihood -70,23283 Akaike criterion 146,4657 Schwarz criterion 148,3828 Hannan-Quinn 146,2882 Temeljem dobivenih rezultata: a) Odredite status varijabli u modelu. b) Kako glasi model višestruke regresije za ovaj primjer? c) Napišite jednadžbu s procijenjenim parametrima i protumačite je. d) Ispod procjena parametara naznačite vrijednosti njihovih standardnih pogrešaka. e) Koliko je koeficijent determinacije i korigirani koeficijent determinacije za analizirani primjer modela? Interpretirajte rezultate. Ocijenjen je model prodaje jedne vrste kave u 12 prodavaonica na temelju podataka u mjesecu ožujku: Yi  b0  b1 X 1i  b2 X 2i  ui . Varijable modela su: Y – količina prodane kave u kg X1 – cijena kave u kunama X2 – broj reklamnih oglašavanja Rezultati regresijske analize dani su tablicom:

80

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model MODEL ^const X1 (t-vrijednost) X2 (t-vrijednost)

R2

F

18006,0 -237,07 (-2,88) 3,7022 (0,17) 0,6578 11,57

a) Testirajte značajnost nezavisnih varijabli. Razina signifikantnosti je 5%. b) Provedite test o značajnosti regresije za model. Razina signifikantnosti je 5%. c) Uz poznatu F vrijednost i standardnu pogrešku regresije s=991,734 ispunite tablicu ANOVA.

81

II. DIO REGRESIJSKA ANALIZA

9. Poglavlje: Višestruki linearni regresijski model

RJEŠENJA ZADATAKA 1.

a) Iskustvo i teorija poslovanja pokazuju da na opseg prodaje utječe velik broj faktora od kojih su izdvojeni izdaci za reklamu i prosječne cijene. Opseg prodaje je zavisna varijabla. To je numerička varijabla čije se vrijednosti (njih 14) odnose na prodaju po područjima. Budući da se varijacije prodaje po tržišnim segmentima (područjima) objašnjavaju pomoću izdataka za reklamu i prosječnih cijena, to su ovdje nezavisne varijable, izdaci za reklamu i prosječne cijene. Varijable su numeričke, a njihove se vrijednosti (14 po svakoj varijabli) odnose na segmente tržišta. Vrijednosti su povezane s područjima, a vremenski su vezane za isto razdoblje, 2002. godinu (crosssectional dana, mješoviti podaci). b) Model je osnovnog skupa: Y1  1   2 X 2i  3 X 3i  ui dok je model uzorka: Yˆi  ˆ 1  ˆ 2 X 2i  ˆ 3 X 3i  ei . c) Yˆi  611,170  0,669 X 2i  3,531 X 3i

d) se  (180,713) (0,065) (1,291) e) Koeficijent determinacije iznosi 0,978, a korigirani koeficijent determinacije 0,974. Koeficijent determinacije pokazuje da je primjenom modela protumačeno oko 97,8% varijacija zavisne varijable, pa je po tome pokazatelju model reprezentativan. Korigirani koeficijent determinacije blizu je njegove maksimalne vrijednosti. Primjena ovog koeficijenta važna je u postupku odabira modela s različitim brojem nezavisnih varijabli. 2.

a) H0:b1=0, HA:b1≠, t=2,88, t0.05(9)=2,62. Nulta hipoteza se ne prihvaća, nezavisna varijabla X1 značajna je za model. H0:b2=0, HA:b2≠, t=0,17, t0.05(9)=2,62. Nulta hipoteza se ne prihvaća, nezavisna varijabla X1 značajna je za model. b) H0:b1=b2=0, HA: bj≠0, j=1,2, F=11,57, F0,05(2,9)=4,26. Nulta hipoteza se ne prihvaća. Ne može se prihvatiti pretpostavka da varijable cijena kave i broj reklamnih oglašavanja nisu signifikantne u objašnjavanju varijacija količine prodane kave. izvori varijacija objašnjena neobjašnjena ukupna

suma kvadrata 22759030,66 8851826,97 31610857,63

stupnjevi slobode 2 9 11

sredina kvadrata 11379515,33 983536,33 2873714,33

F vrijednost 11,57

82

10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela

II. DIO REGRESIJSKA ANALIZA

10.

POGLAVLJE

OCJENJIVANJE U UVJETIMA NEISPUNJENIH PRETPOSTAVKI KLASIČNOG MODELA

U

ovom će se poglavlju razmatrati problemi koji se javljaju u slučaju kada nisu ispunjene polazne pretpostavke klasičnog linearnog regresijskog modela. Razmatrat će se problemi multikolinearnosti, heteroskedastičnosti, autokorelacije grešaka relacije te normalnosti grešaka relacije. Uz svaki će se problem navesti posljedice do kojih dolazi zbog njegova prisustva, načini utvrđivanja postojanja navedenih problema te načini njihova ublažavanja.

10.1. MULTIKOLINEARNOST Jedna od pretpostavki klasičnog standardnog linearnog regresijskog modela je odsustvo savršene multikolinearnosti – odsutnost egzaktne linearne kombinacije nezavisnih varijabli u višestrukoj regresiji. Problem multikolinearnosti je prisutan ako su barem dvije regresorske varijable linearno zavisne ili približno linearno zavisne (uključujući i varijablu 𝑥0 = 1 koja generira konstantni član). Jedna od pretpostavki klasičnog linearnog regresijskog modela je odsustvo multikolinearnosti između dviju ili više eksplanatornih varijabli. Razlikuju se savršena i nesavršena multikolinearnost. U praksi se rijetko susreće savršena multikolinearnost, dok je češća nesavršena multikolinearnost, odnosno približna linearna zavisnost. Savršena multikolinearnost pojavljuje se kada se varijacije jedne zavisne varijable mogu potpuno objasniti varijacijama druge zavisne varijable, tj. ako se, na primjer, u modelu: 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝑢𝑖

(98)

nezavisna varijabla 𝑋1 može prikazati kao linearna funkcija druge nezavisne varijable, tj. 𝑋1𝑖 = 𝛼0 + 𝛼1 𝑋2𝑖

(99)

U praksi je češća nesavršena multikolinearnost, odnosno približna linearna zavisnost, koja označava vezu među varijablama koja nije egzaktna, već uključuje i odstupanje 𝑣𝑖 : 𝑋1𝑖 = 𝛼0 + 𝛼1 𝑋2𝑖 + 𝑣𝑖

(100)

Izraz (100) znači da se varijacije varijable 𝑋1 mogu predstaviti varijacijama varijable 𝑋2 , ali ne u potpunosti, već neke neobjašnjene varijacije još postoje. Vrlo često makroekonomski podaci vremenskih serija uključuju multikolinearnost, jer pokazuju slične tendencije rasta u određenome vremenskome razdoblju. Posljedice savršene i nesavršene multikolinearnosti pokazat će se na primjerima. PRIMJER 21

Primjer savršene multikolinearnosti Potrebno je ocijeniti linearni model potražnje za računalima uz pomoć podataka iz tablice 21.

83

II. DIO REGRESIJSKA ANALIZA

10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela

Tablica 21: Potražnja za osobnim računalima

Y količina 49 45 44 39 38 37 34 33 30 29

X2 cijena 1 2 3 4 5 6 7 8 9 10

X3 tjedni dohodak (procjena) 298 296 294 292 290 288 286 284 282 280

X4 tjedna zarada (stvarne vrijednosti) 297,5 294,9 293,5 292,8 290,2 289,7 285,8 284,6 281,1 278,8

Tablica 21 prikazuje podatke za količinu potražnje za osobnim računalima u odnosu na cijenu (X2) i na dvije mjere tjedne raspoložive količine novca, (X3) kao procjena tjednog dohotka i (X4) kao podaci za stvarno raspoloživu količinu novca. Za razlikovanje varijabli X3 i X4 nazvane su tjedni dohodak i tjedna zarada. Kako je, pored cijene, dohodak važna determinanta potražnje proširena funkcija potražnje može se pisati kao:

Yi  A1  A2 X 2i  A3 X 3i  ui

(101)

Yi  B1  B2 X 2i B3 X 3i  ui

(102)

Prikazane funkcije potražnje razlikuju se u korištenim mjerama dohotka. A priori se očekuje da A 2 i B2 imaju negativan predznak, dok se za koeficijente A 3 i B3 očekuje da su pozitivni. Kada se temeljem podataka tablice 21 i pomoću programske potpore želi ocijeniti model (101), računalo «odbija» procijeniti regresiju. Zašto? Uvrštavanjem podataka za cijenu (X2) i tjedni dohodak (X3) u dijagram dobije se sljedeća slika. Slika 22: Dijagram rasipanja varijabli dohodak (X3)i cijene (X2)

Izračunom regresije varijable (X2 ) cijene i dohotka (X3) dobiju se sljedeći rezultati: X 3  300  2 X 2i R 2  1,00

(103)

Varijabla (X3) se može prikazati kao linearna funkcija varijable (X2). Drugim riječima, tjedni dohodak (X3) i cijena (X2) savršeno su linearno korelirane, postoji dakle savršena multikolinearnost. Zbog odnosa u izrazu (103), izraz (101) se ne može procijeniti. Supstituiranjem izraza (103) u izraz (101) dobije se:

84

10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela

II. DIO REGRESIJSKA ANALIZA

Yi  A1  A2 X 2i  A3 ( 300  2 X 2i )  ui  (A1  300A3 )  (A2  2A3 )X 2i  ui  C1  C2 X 2i  ui

(104)

C  A1  300A3 C  A2 - 2A3

Izraz (104) pokazuje zašto se izraz (101) nije mogao procijeniti: ne radi se o slučaju višestruke regresije, već o jednostavnoj regresiji s dvije varijable Y i X2. No, iako se izraz (104) može procijeniti te dobiti procjene za C1 i C2, iz njega nije moguće dobiti procjene za originalne parametre A1, A2 i A3, jer u izrazu (104) imamo samo dvije jednadžbe i tri nepoznanice. Rezultati procjene regresije (104) su:

Yˆi  49 ,667  2 ,1576 X 2 i se  (0,746) (0,1203) t  (66,583) (-17,935)

(105) R  0 ,9757 2

ˆ iznosi 49,667 a Cˆ -2,1756. Iz ovih vrijednosti nije moguće dobiti vrijednosti za tri Kao što je vidljivo C 2 1 nepoznanice A1, A2 i A3. U slučaju savršene multikolinearnosti, savršene linearne veze, među nezavisnim varijablama nije moguće dobiti jedinstvene procjene parametara. A budući da se parametri ne mogu procijeniti, nije moguće pristupiti testiranju hipoteza i bilo kakvom drugom postupku statističkog zaključivanja o njima temeljem određenog uzorka. PRIMJER 22

Primjer nesavršene multikolinearnosti Za objašnjenje nesavršene multikolinearnosti razmotrimo podatke iz tablice 21 te ocijenimo izraz (102) sa tjednom zaradom u stvarnim vrijednostima (X4). Rezultati regresije su:

Yˆi  145,37  2 ,7975 X 2i  0 ,3191X 4 i se  (120,06) (0,8122) (0,4003) t  (1,2107) (-3,4444)(-0,7971)

(106) R  0 ,9778 2

Rezultati su zanimljivi iz nekoliko razloga: 1. Iako regresiju iz izraza (101) nije moguće procijeniti, moguće je procijeniti regresiju iz izraza(102), iako su razlike između dviju dohodovnih varijabli neznatne. 2. Prema očekivanjima, cjenovni koeficijenti su negativni. Svaki je cjenovni koeficijent statistički značajno različit od nule. No t vrijednost cjenovnog koeficijenta u izrazu (105) puno je veći od t vrijednosti u izrazu (106), odnosno standardna pogreška cjenovnog koeficijenta manja je u izrazu (105) od one u izrazu (106). 3. Vrijednost R2 u izrazu (105) s jednom nezavisnom varijablom iznosi 0,9757, dok u izrazu (106) s dvije nezavisne varijable iznosi 0,9778, te raste za tek 0,0021. 4. Koeficijent dohotka (tjedne zarade) statistički je nesignifikantan, no što je zanimljivije ima negativan predznak. Za većinu dobara, dohodak pozitivno utječe na količinu potražnje. 5. Unatoč neznačajnosti dohodovne varijable testiranjem hipoteze 2=3=0 (hipoteza da je R2=0), ona se lako može odbaciti primjenom F testa. Drugim riječima, cijena i zarada imaju značajnog utjecaja na količinu potražnje. Kako se objašnjavaju tako neobični rezultati? Uvrštavanjem u dijagram rasipanja podataka za varijablu X 2 i X4, cijena nasuprot tjednoj zaradi dobije se sljedeća slika.

85

10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela

II. DIO REGRESIJSKA ANALIZA

Slika 23: Odnos tjedne zarade (X4) i cijene (X2) 300

tjedna zarada

295 290

X4 =299,92 -2,0055X2

285 280 275 0

1

2

3

4

5

6

7

8

9

10

cijena

Iz prethodne slike je vidljivo da, iako cijena i tjedna zarada nisu egzaktno linearno povezane, među njima postoji visok stupanj zavisnosti. Navedeno se može potvrditi i iz rezultata regresije

X 4 i  2999 ,92  2 ,0055 X 2i  ei se  (0,6748) (0,1088)

(107)

t  (444,44) (-18,44) R  0 ,9770 2

Kako rezultati regresije pokazuju, cijena i tjedna zarada usko su povezane: koeficijent korelacije iznosi -0,9884, što je slučaj skoro savršene multikolinearnosti.

POSLJEDICE MULTIKOLINEARNOSTI

Govorit će se o nesavršenoj multikolinearnosti s kojom se uglavnom u praksi često i susrećemo. Ocjene parametara su efikasne i nepristrane, dakle još uvijek imaju svojstva da su najbolje linearne nepristrane, tj. BLUE, no postoji niz drugih posljedica: 1. Velike varijance i standardne pogreške parametara. Velika standardna greška znači i širi interval pouzdanosti te je stoga, teže procijeniti pravu vrijednost parametara, tj. pada preciznost ocjene parametara. 2. Nesignifikantne t-vrijednosti koje su posljedica velikih standardnih pogrešaka, zbog kojih će se kod testiranja hipoteze o značajnosti pojedine regresorske varijable prihvatiti H0 hipoteza (da je važna varijabla nesignifikantna). 3. Visok R2 i niske t-vrijednosti jasan su pokazatelj multikolinearnosti. 4. Ocjene parametara i njihove standardne greške postaju vrlo nestabilne i vrlo osjetljive na male promjene u podacima. 5. Pogrešan predznak parametara jest čest slučaj upravo zbog neefikasne i neprecizne ocjene parametra. 6. Nije moguće utvrditi zasebne utjecaje svake nezavisne varijable u objašnjenoj varijaciji, odnosno u R2. Ako postoji multikolinearnost prilagođenost se ne mijenja značajno, ali se ne može utvrditi uloga pojedine nezavisne varijable. OTKRIVANJE MULTIKOLINEARNOSTI

Ne postoji test ili točno definiran način za otkrivanje multikolinearnosti. Nije bitno praviti razliku između prisutnosti i odsutnosti multikolinearnosti, već između različitih stupnjeva multikolinearnosti. Za to postoje različiti indikatori: 1. VISOK R2, A NISKE T-VRIJEDNOSTI

86

II. DIO REGRESIJSKA ANALIZA

10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela

Ako je R2 visok, npr. viši od 0,8 F testom će se odbaciti hipoteza da su svi parametri u funkciji jednaki nuli. Tako je i kod multikolinearnosti, međutim ono što je kontradiktorno, pojedini ttestovi pokazuju da niti jedan parametar (ili samo neki od njih) nije statistički različit od nule. 2. VISOKI KOEFICIJENT KORELACIJE IZMEĐU EKSPLANATORNIH VARIJABLI

Ako su koeficijenti korelacije među nezavisnim varijablama visoki (recimo iznad 0,8), to može biti znak visoke koreliranosti među tim varijablama. Međutim, taj pokazatelj nije uvijek pouzdan, jer može biti nizak, a da multikolinearnost u modelu ipak postoji. Naime, moguće je da nezavisne varijable u grupi djeluju multikolinearno. Zato je, kada se radi o modelu s više od dvije nezavisne varijable, potrebno računati koeficijent parcijalne korelacije. Na primjer u modelu:

Yi  0  1 X 1i   2 X 2i   3 X 3i  ui

(108)

koeficijent parcijalne korelacije r12,3 jest koeficijent korelacije između X1 i X2, držeći utjecaj varijable X3 konstantnim. Iako koeficijent jednostavne linearne korelacije r12 može biti nizak, koeficijent parcijalne korelacije r12,3 može biti visok, a to znači da je, ne uzimajući u obzir utjecaj varijable X3, korelacija između varijabli X1 i X2 visoka. Ukratko, visoki koeficijent jednostavne linearne korelacije među eksplanatornim varijablama pokazatelj je postojanja multikolinearnosti, ali samo ako se radi o modelu s dvije nezavisne varijable. 3. POMOĆNE REGRESIJE

Kako se kod multikolinearnosti jedna ili više eksplanatornih varijabli može prikazati kao linearna kombinacija ostalih eksplanatornih varijabli u modelu, da bi se utvrdilo postoji li ta linearna funkcijska veza među nezavisnim varijablama ocjenjuju se tzv. pomoćne regresije: ocjenjuje se regresija za svaku od nezavisnih varijabli Xi i računa pripadni Ri2. Testirajući hipotezu Ri2=0, ispitujemo tvrdnju da nema kolinearnosti među Xi i preostalih nezavisnih varijabli u modelu. Pri tome se koristi F test: F

R2 k ( 1  R 2 ) n  k  1

(109)

gdje je n broj opažanja, a (n-k-1) broj parametara u modelu. Iako R2 nije jako visok, prema F testu može biti signifikantno različit od nule. 4. INFLACIJSKI FAKTOR VARIJANCE (VIF)

Ri2 dobiven iz pomoćnih regresija nije potpuno pouzdan pokazatelj kolinearnosti. Varijanca parametar uz nezavisnu varijablu računa se prema izrazima var(  1 ) 

var(  2 ) 

 X

 X

2 1i

 X1

  1  R  2

2

2 2i

 X2

(110)

1

  1  R  2

2

(111)

2

Među standardnim pokazateljima multikolinearnosti u programskim paketima, među ostalim pokazateljima postoji i faktor inflacije varijance VIF (eng. Variance Inflation Factor) definiran izrazom: 1 VIF𝑗 = 1−𝑅2 , 𝑗 = 1,2, … , 𝑘. (112) 𝑗

gdje je 𝑅𝑗2 koeficijent determinacije u modelu višestruke linearne regresije u kojemu je j-ta regresorska varijabla zavisna, a preostali regresori nezavisne varijable.

87

II. DIO REGRESIJSKA ANALIZA

10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela

1

Kako se omjer 1−𝑅2 naziva inflacijski faktor varijance (VIF), varijance iz izraza (110) i (111) 𝑖

mogu se pisati kao: var(  1 ) 

var( 2 ) 

 X

 X

2 1i

 X1

2 2i

 X2



2



2

 VIF

(113)

 VIF

(114)

Ako je Ri2=0 znači da nema multikolinearnosti, VIF=1. Kako Ri2 raste, povećava se varijanca i standardna pogreška parametra, a i VIF. Varijanca parametra ne ovisi samo o 𝑅𝑖2 nego i o varijanci odstupanja 2 i o varijaciji podataka nezavisne varijable Xi oko njezine sredine 𝑋̅, zato visok Ri2 dobiven iz pomoćnih regresija može biti samo grubi pokazatelj prisustva multikolinearnosti. Ozbiljan problem multikolinearnosti je prisutan ako je 𝑅𝑗2 > 0,8, odnosno VIF𝑗 > 5. 𝑅𝑗2 dobiven iz pomoćnih regresija nije potpuno pouzdan pokazatelj kolinearnosti. Ako je 𝑅𝑗2=0 znači da nema multikolinearnosti, VIF=1. Kako 𝑅𝑗2 raste, povećava se varijanca i standardna pogreška parametra, a i VIF. U slučaju visoke korelacije regresorske varijable 𝑥𝑗 s ostalim regresorskim varijablama koeficijent determinacije 𝑅𝑗2 ≈ 1. PRIMJER 23

Otkrivanje postojanja multikolinearnosti putem inflacijskog faktora varijance (VIFa) Za primjer 20 u kojemu se analizira ostvareni promet u ugostiteljstvu ovisno o broju poslovnih jedinica i indeksa neto plaća, dobiveni su, programskom potporom EViews, sljedeći pokazatelji multikolinearnosti: Slika 24: Pokazatelj multikolinearnosti VIF

Iz ispisa rezultata vidljivo je da ne postoji ozbiljan problem multikolinearnosti. Faktor inflacije varijance (engl. Variance Factor) iznosi 𝐶𝑒𝑛𝑡𝑒𝑟𝑒𝑑 𝑉𝐼𝐹 = 1,057302, tj manji je od 5.

11.1.3. RJEŠAVANJE PROBLEMA MULTIKOLINEARNOSTI

Problem multikolinearnosti često se pojavljuje u empirijskim istraživanjima i više je pravilo nego izuzetak, pogotovo u vremenskim regresijskim modelima, tj. modelima koji kao varijable sadrže vremenske nizove uključenih pojava. Egzaktno rješenje problema multikolinearnosti ne postoji. Međutim, problem multikolinearnosti moguće je ublažiti: 



Povećanjem broja podataka (povećanjem uzorka) s obzirom da je multikolinearnost problem uzorka, a ne populacije. Time će se obuhvatiti više varijacija promatranih varijabli. Ipak, nije moguće uvijek dobiti veći uzorak podataka. Postoji i mogućnost transformacije podataka. Kako je multikolinearnost svojstvena podacima vremenskog niza, korištenjem diferenciranja podataka za varijable 𝑋𝑡∗ = 𝑋𝑡 − 𝑋𝑡−1 zapravo dobivamo nizove koji predstavljaju promjene podataka od razdoblja do razdoblja. Na taj se način rješavamo trenda u opažanjima za pojedinu varijablu, a koji je često uzrok prisutnosti multikolinearnosti. Potrebno je imati na umu da transformiranjem

88

10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela

II. DIO REGRESIJSKA ANALIZA



podataka transformiramo i model, a time i ocijenjeni parametri imaju drugačiju ekonomsku interpretaciju. Jedan od načina rješavanja problema multikolinearnosti jest izbaciti regresorsku varijablu ili varijable koje su korelirane. To nije jednostavno rješenje jer može prouzrokovati specifikacijsku pogrešku i sve posljedice koje ona nosi.

10.2. AUTOKORELACIJA Riječ je o posljedicama kršenja treće (odsutnost autokorelacije) pretpostavke klasičnog linearnog regresijskog modela, tj. o pojavi autokorelacije ili serijske korelacije odstupanja ui. Autokorelacija ostavlja takve posljedice na model da on postaje nepogodan za prognoziranje. Važno je stoga, razumjeti o kakvom se problemu radi, kakve on posljedice ostavlja na ocijenjeni model te kako ga riješiti. Autokorelacija postoji kada su vrijednosti slučajne varijable u međusobno korelirane veličine  ( ui , u j )  0 ,

(i  j)

(115)

Izraz (115) znači da je očekivana vrijednost umnoška između dviju različitih komponenata varijable u različita od nule. Autokorelacija je češće prisutna kod ocjenjivanja modela na osnovi podataka vremenskih nizova nego u slučaju ocijenjenog modela na osnovi podataka vremenskog presjeka. Stoga, kada se raspravlja o autokorelaciji, u literaturi je uobičajeno uz varijable stavljati oznaku t (za vrijeme) umjesto oznake i. Prema tome, kada su odstupanja autokorelirana piše se

 ( ut ,ut s )  0 ,

(t  s)

(116)

Taj izraz znači da je odstupanje koje se zbilo u vremenu t povezano s odstupanjem u vremenu (t-s). Npr. pri proučavanju potražnje za nekim proizvodom na temelju mjesečnih podataka, neautokoreliranost odstupanja znači da je posljedica zastoja u isporuci proizvoda privremena, tj. utječe samo na potražnju tekućeg vremena. Najjednostavnija je i najčešća autokorelacija prvog reda koja se može izraziti autoregresijskom funkcijom AR(1):

ut   ut -1   t

(117)

gdje je: ut - odstupanje u razdoblju t ut-1 - odstupanje u prethodnom razdoblju  - jednostavni korelacijski koeficijent između ut i ut-1,  <1 vt - normalno distribuirana nezavisna odstupanja koja su u skladu s klasičnim pretpostavkama, tj. tN(0, 2) Tada kažemo da se odstupanja ponašaju prema autoregresijskom procesu 1. reda, tj. utAR(1). Postoje dvije vrste autokorelacije: pozitivna i negativna. Kod pozitivne odstupanja ui obično imaju isti predznak. Kod negativne autokorelacije pozitivna odstupanja slijede negativna, pa opet pozitivna, itd. Kada je autokorelacija prisutna, vizualno odstupanja kroz vrijeme pokazuju određeno pravilo ponašanja, odnosno sistematičnost kao na slici 12. Postoji više razloga zbog kojih se autokorelacija pojavljuje. Često je uzrok sadržan u samim podacima uzorka na osnovi kojeg se model ocjenjuje. To je tzv. prava autokorelacija. Ekonomski podaci pokazuju kroz vrijeme ciklično kretanje. Iz recesije preko razdoblja oporavka, podaci vremenske serije idu po uzlaznoj putanji i u svakoj točki im je vrijednost veća nego u prethodnoj, sve dok se nešto ne dogodi slijedom ekonomskih ciklusa. Tako sukcesivne vrijednosti opažanja izgledaju međusobno korelirane, bilo da pratimo bruto društveni proizvod, proizvodnju, zaposlenost, kretanje cijena itd. Razlog može biti i «friziranje»

89

II. DIO REGRESIJSKA ANALIZA

10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela

statističkih podataka, npr. umjesto prikupljanja podataka za razna vremenska razdoblja, oni se izračunavaju kao prosjeci iz kraćih vremenskih razdoblja. Zato podaci izgledaju «izglađeno», pa odstupanja pokazuju pravilnost pojavljivanja, tj. autokorelaciju. Čest razlog je specifikacijska pogreška, a to je izostavljena signifikantna varijabla ili odabir pogrešne funkcijske veze. To je tzv. neprava autokorelacija. Odstupanja na sebe preuzimaju tu pogrešku, nisu više slučajna, nego se ponašaju po određenom pravilu, što je moguće vidjeti iz dijagrama rasipanja. POSLJEDICE AUTOKORELACIJE

Pod pretpostavkama klasičnog regresijskog modela, ocjene parametara su najbolje linearne nepristrane ocjene (BLUE). Znači da imaju minimalnu varijancu (efikasne su) i nepristrane su. Dogodi li se da pretpostavka o autokorelaciji nije zadovoljena, to ostavlja ozbiljne posljedice na ocijenjeni model. Ocjene parametara su nepristrane, ali su nepouzdane jer:    

Nisu više efikasne (tj. nemaju minimalnu varijancu, nisu više BLUE). Podcijenjena je varijanca i standardna pogreška parametra, zbog toga t i F test nisu pouzdani pokazatelji. Podcijenjena je ocijenjena rezidualna varijanca ˆ 2 , pa R2 nije pouzdan pokazatelj. Model nije pogodan za predviđanje jer su i varijanca i standardna pogreška predviđanja neefikasne.

OTKRIVANJE AUTOKORELACIJE

Kako je pojava autokorelacije povezana s pogreškama relacije koja nam je nepoznata, otkrivanje i analiza autokorelacije oslanja se na procijenjene pogreške, tj. rezidualna odstupanja. Postoji više načina za otkrivanje autokorelacije, među kojima se spominju grafička metoda i formalni testovi.

GRAFIČKA METODA

Ozbiljna autokorelacija često je očita iz dijagrama rasipanja rezidualnih odstupanja. Grafička metoda sastoji se u prikazivanju raspršenosti reziduala kroz vrijeme iz kojeg je moguće vidjeti postoji li neka pravilnost ili su odstupanja stvarno slučajno distribuirana.

PRIMJER 24

Otkrivanje autokorelacije grafičkom metodom Radi lakšeg razumijevanja ocijenit će se model stvarnih plaća i produktivnosti rada u poslovnom sektoru u SAD-u od 1959. do 2002. Iz makroekonomske teorije očekuje se pozitivan odnos između plaća i produktivnosti rada: što je viša produktivnost rada, veća je i plaća. U tablici 22 prikazani su podaci o plaćama i produktivnosti rada za navedeno razdoblje.

90

II. DIO REGRESIJSKA ANALIZA

10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela

Tablica 22: Plaće i produktivnost rada u SAD-u za razdoblje od 1959. do 2002. godine godina 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980

plaća (W) 59,2 60,7 62,5 64,6 66,1 67,7 69,1 71,7 73,6 76 77,2 78,6 80,1 82,3 84,1 83,1 83,9 86,2 87,4 88,9 89,1 88,9

produktivnost (P) 48,6 49,5 51,3 53,6 55,7 57,6 59,7 62,1 63,5 65,5 65,8 67,1 70 72,2 74,5 73,2 75,8 78,4 79,7 80,6 80,5 80,3

godina 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002

plaća (W) 89 90,5 90,4 90,7 92,1 95,2 95,6 97 95,5 96,3 97,4 100 99,9 99,7 99,4 99,8 100,7 104,8 107,2 111 112,1 113,5

produktivnost (P) 81,9 81,6 84,5 86,8 88,5 91,2 91,6 93 93,9 95,3 96,4 100 100,5 101,7 102,3 105,1 107,4 110,2 113 116,5 118,8 125,1

Iz podataka iz tablice 22 dobiju se sljedeći regresijski rezultati: W  29 ,5749  0 ,7005 P se  ( 1,4605 ) (0,0171) t  (20,2496) (40,9181)

(118)

R 2  0 ,9755 d  0,2136

Prema očekivanjima postoji pozitivna veza između plaća i produktivnosti rada, te su t vrijednosti i R2 visoki. No, prije prihvaćanja ovih rezultata kao zadovoljavajućih potrebno je testirati mogućnost postojanja autokorelacije. Kao i u slučaju heteroskedastičnosti, grafički prikaz OLS reziduala može dati vrijednu sliku o postojanju autokorelacije među slučajnim varijablama. Postoji više načina grafičkog prikazivanja reziduala. Reziduali se mogu prikazati u dijagramu rasipanja u odnosu na vrijeme kao na slici 25.

reziduali

Slika 25: Reziduali regresije iz izraza (118)

vrijeme

Iz slike 25 vidljivo je da reziduali nisu slučajno distribuirani. U početku su negativni, pa pozitivni, pa opet negativni.

91

II. DIO REGRESIJSKA ANALIZA

10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela

Tablica 23: Reziduali i pripadajući podaci iz regresije plaće i produktivnost rada et -4,42361 -3,55414 -3,0152 -2,52656 -2,49779 -2,22891 -2,30015 -1,38157 -0,46239 0,53643 1,526253 2,015487 1,483778 2,142481 2,331126 2,241892 1,220359 1,698827 1,988061 2,857531 3,12759 3,067707 2,046765 3,756941 1,625232 0,313877 0,522875 1,731284 1,851048 2,270223 0,139693 -0,04113 0,288219 0,366098 -0,0842 -1,1249 -1,84526 -3,40691 -4,11826 -1,97991 -1,54156 -0,19363 -0,70498 -3,71869

et-1 -4,42361 -3,55414 -3,0152 -2,52656 -2,49779 -2,22891 -2,30015 -1,38157 -0,46239 0,53643 1,526253 2,015487 1,483778 2,142481 2,331126 2,241892 1,220359 1,698827 1,988061 2,857531 3,12759 3,067707 2,046765 3,756941 1,625232 0,313877 0,522875 1,731284 1,851048 2,270223 0,139693 -0,04113 0,288219 0,366098 -0,0842 -1,1249 -1,84526 -3,40691 -4,11826 -1,97991 -1,54156 -0,19363 -0,70498

D=et-et-1 0,86947 0,538939 0,488645 0,028762 0,26888 -0,07124 0,918586 0,919175 0,998821 0,989823 0,489234 -0,53171 0,658703 0,188645 -0,08923 -1,02153 0,478468 0,289234 0,86947 0,270059 -0,05988 -1,02094 1,710177 -2,13171 -1,31136 0,208998 1,208409 0,119764 0,419175 -2,13053 -0,18083 0,329352 0,077878 -0,45029 -1,04071 -0,72035 -1,56165 -0,71136 2,13835 0,43835 1,347937 -0,51136 -3,01371

D2 0,755977 0,290455 0,238773 0,000827 0,072297 0,005075 0,8438 0,844883 0,997644 0,97975 0,23935 0,282715 0,43389 0,035587 0,007963 1,043528 0,228931 0,083656 0,755977 0,072932 0,003586 1,042324 2,924705 4,544184 1,719653 0,04368 1,460252 0,014343 0,175708 4,53916 0,032698 0,108473 0,006065 0,202765 1,083071 0,518909 2,438751 0,506027 4,57254 0,192151 1,816935 0,261484 9,082465

et2 19,56833 12,63192 9,091443 6,383492 6,23898 4,968061 5,290701 1,908727 0,213806 0,287757 2,329448 4,062186 2,201596 4,590225 5,434146 5,026078 1,489277 2,886014 3,952387 8,165482 9,781817 9,410829 4,189245 14,11461 2,64138 0,098519 0,273398 2,997343 3,426379 5,153912 0,019514 0,001692 0,08307 0,134027 0,007089 1,265409 3,404976 11,60702 16,96009 3,920058 2,376418 0,037491 0,496999 13,82869

predznak od e + + + + + + + + + + + + + + + + + + + + + + + + -

Isto se može uočiti ukoliko se reziduali et iz prve kolone tablice (23) usporede s rezidualima et-1 iz druge kolone (slika 26). Slika 26: Reziduali et u odnosu na et-1 regresije iz izraza (118)

Opći trend slike ukazuje da su sukcesivni reziduali pozitivno korelirani, što ukazuje na pozitivnu autokorelaciju.

et-1

et

92

Statističke Tablice

PRILOZI DURBIN-WATSONOV TEST

Durbin-Watsonov d test najpoznatiji je test za otkrivanje autokorelacije. Njegova prednost je što je jednostavan za primjenu i uključen u sve ekonometrijske pakete. Test veličina je n

d

( e

t

t 2

 et 1 )2

n

e t 1

(119)

2 t

koja predstavlja omjer zbroja kvadrata prvih diferencija rezidualnih odstupanja i zbroja kvadrata rezidualnih odstupanja. Zbog diferenciranja u brojniku se gubi jedno opažanje, pa sumiranje kreće od drugog opažanja (t=2). DW test se može upotrijebiti ako su zadovoljene sljedeće pretpostavke: 1. Koristi se za otkrivanje autokorelacije 1. reda. 2. Regresijski model uključuje konstantu (odsječak na ordinati). Ne može se primijeniti na regresiju kroz ishodiše. 3. Nezavisne varijable su nestohastične, znači imaju fiksne vrijednosti kod ponovljenih uzoraka. 4. Regresijski model ne uključuje vrijednosti zavisne varijable s pomakom u vremenu kao eksplanatorne varijable, tj. test nije primjenjiv na modele kao

Yt  0  1 X t   2Yt 1  ut

poznate pod nazivom autoregresijski modeli. Izraz (119) može se približno pisati kao:

d  2( 1  ˆ )

(120)

gdje je: n

ˆ 

e

t

t 2

n

 et 1

 et2

(121)

t 1

koji je procjenjivač koeficijenta autokorelacije  autoregresijske funkcije dane izrazom (117). Kada ispitujemo je li autokorelacija prisutna u ocijenjenom modelu, tada zapravo testiramo hipotezu je li autokorelacijski parametar  iz relacije (117) jednak ili različit od nule. Ako je  = 0 u relaciji (117), tada je ut=t, pa odstupanja u regresijskoj jednadžbi neće biti autokorelirana. Zato za nul hipotezu da nema autokorelacije, možemo upotrijebiti 0: = 0. Za alternativnu hipotezu možemo upotrijebiti A:  > 0 ili A:  < 0 ili A: ≠ 0. U većini ekonomskih empirijskih istraživanja koristi se A:  > 0 jer je pozitivna autokorelacija u praksi najčešća. Kako je -1   0 vrijedi:

ˆ  0 , d2, nema autokorelacije   ˆ  1 , d0 postoji savršena pozitivna autokorelacija   ˆ  1 , d4 postoji savršena negativna autokorelacija   Izračunati d kreće se u intervalu [0,4]. Što je bliže vrijednosti 0, pokazatelj je pozitivne autokorelacije, a čim je bliže vrijednosti 4, pokazatelj je negativne autokorelacije. Kada se

93

Statističke Tablice

PRILOZI

vrijednost od d kreće oko 2, znači da autokorelacije nema. No postoje i vrijednosti kada nismo sigurni za postojanje autokorelacije (tablica 24). Tablica 24: Durbin-Watsonov pokazatelj (test veličine) POZITIVNA AUTOKORELACIJA (odbaciti H0)

0

NEMA AUTOKORELACIJE PRVOG REDA (prihvatiti H0)

?

dL

dU – gornja vrijednost u DW tablici dL – donja vrijednost u DW tablici

dU

2

4- dU

NEGATIVNA AUTOKORELACIJA (odbaciti H0)

?

4-dL

4

H0: nema autokorelacije

U DW tablicama nalazimo dvije kritične vrijednosti: dL donju i dU gornju. Te vrijednosti ovise o broju opažanja n i o broju eksplanatornih varijabli k. Durbin-Watsonov test provodi se u nekoliko koraka: 1. Ocijeniti model pomoću metode najmanjih kvadrata i izračunati reziduale et. 2. Izračunati Durbin-Watsonovu d vrijednost iz formule (119). Obično je to rutina uključena u ekonometrijski programski paket, koja se iskazuje u rezultatima regresijske analize. 3. Naći kritične vrijednosti dL i dU u tablicama za danu veličinu uzorka i broj eksplanatornih varijabli. 4. Zaključak o prisutnosti autokorelacije donosi se prema pravilima u tablici (24) odnosno (25). Tablica 25: Način donošenja odluke kod Durbin-Watsonovog testa VRIJEDNOST DW 0 < d < dL dL  d  dU dU < d  4 4  d  4 - dU 4 - dU  d  4 - d L 4 – d L< d < 4

ODLUKA odbaciti H0: prisutna pozitivna autokorelacija bez odluke prihvatiti H0: nema autokorelacije prihvatiti H0: nema autokorelacije bez odluke odbaciti H0: prisutna negativna autokorelacija

Iz primjera o plaćama i produktivnosti rada regresijski rezultati dali su d vrijednost od 0,2136 (izraz 118). Iz Durbin-Watsonove tablice vidimo da je za n=45 i jednu eksplanatornu varijablu, dL=1,475 a dU=1,566 na razini signifikantnosti od 5%. Kako je izračunati d=0,2136 ispod donje kritične vrijednosti od 1,475 zaključujemo da postoji pozitivna autokorelacija u rezidualima regresije o plaćama i produktivnosti rada. BREUSCH-GODFREYJEV TEST

Ako u modelu 𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1 + ⋯ + 𝛽𝑘 𝑋𝑘 + 𝑢𝑡 postoji autokorelacija greške višega reda, po autoregresijskom procesu reda ρ: 𝑢𝑡 = 𝜌0 𝑢𝑡−1 + 𝜌2 𝑢𝑡−2 + ⋯ + 𝜌𝑘 𝑢𝑡−𝜌 + 𝜀𝑡 , gdje je εt slučajna greška koja ispunjava sve pretpostavke klasičnog linearnog regresijskog modela o stohastičnosti (sredina nula i konstantna varijanca), u testu autokorelacije greške 𝑢𝑡 polazi se od hipoteze da nema autokorelacije. Stoga je, nulta hipoteza o nepostojanju autokorelacije: 𝐻0 = 𝜌1 = 𝜌2 = ⋯ = 𝜌𝜌 = 0

94

Statističke Tablice

PRILOZI

Koraci provođenja Breusch-Godfreyeva testa su:  

Ocijeniti polazni model metodom najmanjih kvadrata tako da se dobiju reziduali 𝑢̂𝑡 . Regresirati ût na sve regresore (nezavisne varijable) polaznog modela, ali i na 𝑢̂𝑡−1 , 𝑢̂𝑡−2 , … 𝑢̂𝑡−𝜌 (reziduale s pomakom u vremenu).

Poznat još i kao LM (Lagrange Multiplier) test, nije ograničen na testiranje postojanja autokorelacije prvog reda, a može se upotrijebiti i kada su u model uključene i varijable s pomakom u vremenu. Primjenjiv je i u slučaju autokorelacije prema procesu pomičnih prosjeka. Problem testa je što se ne zna unaprijed red autokorelacije  te je potrebno isprobati razine. LM test veličina pripada𝜒 2 (𝜌) distribuciji. Ukoliko je empirijska vrijednost 𝐿𝑀 = 𝑛𝑅 2 veća od kritičke vrijednosti 𝜒 2 (𝜌) za danu razinu signifikantnosti nulta se hipoteza odbacuje. PRIMJER 25

Rezultati Breusch-Godfreyevoga testa za podatke iz primjera 20, (n=10, k=2). Slika 27: Breusch-Godfrey test za primjer 20 (ispis EViews 8.)

Pretpostavljen je model oblika: 𝑦𝑡 = 𝛽0 + 𝛽1 𝑥𝑡1 + 𝛽2 𝑥𝑡2 + 𝜌1 𝜀𝑡−1 + 𝜌2 𝜀𝑡−2 + 𝑢𝑡 , tj. pretpostavlja se da su greške relacije autokorelirane reda 2. Procijenjen model na osnovi uzorka je: 𝑦̂ 𝑡 = 353,6082 − 0,016813𝑥𝑡1 − 1,643380𝑥𝑡2 + 0,200085𝜀𝑡−1 − 0,524681𝜀𝑡−2 s koeficijentom determinacije 𝑅2 = 0,158808. Hipoteze o autokorelaciji grešaka relacije glase:

𝐻0 = 𝜌(1) = 𝜌(2) = 0, 𝐻1 = ∃(𝜌𝑗 ) ≠ 0, 𝑗 = 1, 2. Test veličina (engl. Obs*R-squared) iznosi 𝑛𝑅2 = 10 ∙ 0,158808 = 1,58808 . Empirijska razina signifikantnosti (engl. prob. Chi-square(2)) je 0,452015, što znači da test veličina pada u područje prihvaćanja nulte hipoteze. Zaključuje se da ne postoji problem autokorelacije prvoga i drugoga reda.

95

Statističke Tablice

PRILOZI

LJUNG-BOX Q-TEST

Ukoliko se pretpostavi da postoji autokorelacija grešaka relacije reda višega od 1, a što se može uočiti promatranjem autokorelacijske funkcije reziduala, može se koristiti Ljung-Boxova Qtest veličina. Q-vrijednost za pomak k je test veličina Ljung-Boxovoga testa za nultu hipotezu da nema autokorelacije do reda k (tj. da su svi koeficijenti autokorealcije jednaki nuli, te da je niz grešaka relacije {𝜀𝑡 } čisti slučajni proces ili bijeli šum). Ako se s 𝜌(𝑖) označi koeficijent autokorelacije reda i, tada su hipoteze Ljung-Boxovog testa: 𝐻0 = 𝜌(1) = 𝜌(2) = ⋯ = 𝜌(𝑘) = 0, 𝐻1 = ∃(𝜌𝑗 ) ≠ 0,

𝑗 = 1, 2, … 𝑘,

Q test veličina računa se prema izrazu: 𝑘

𝑄 = 𝑛(𝑛 + 2) ∑ 𝑖=1

𝑟𝑖2 (𝑛 − 1)

(122)

pri čemu je n veličina uzorka. U gore navedenom izrazu, 𝑟𝑖 su procjene koeficijenata autokorelacije i-toga reda 𝜌(𝑖) izračunate temeljem niza rezidualnih odstupanja sljedećim izrazom: 𝑟𝑖 =

∑𝑛𝑡=𝑖+1 𝜖̂𝑡 𝜀̂𝑡−𝑖 ∑𝑛𝑡=1 𝜀̂𝑡2

(123)

pri čemu 𝜖̂𝑡 označava rezidualno odstupanje u trenutku t. Varijabla Q je distribuirana po 𝜒 2 -distribuciji s k stupnjeva slobode. U nastavku je dan primjer prikaza autokorelacijske (AC) i parcijalne autokorelacijske funkcije (PAC), izračunate su Ljung-Boxove Q-test veličine te njihove empirijske razine signifikantnosti. PRIMJER 26

Autokorelacijska funkcija (ACF) i parcijalna autokorelacijska funkcija (PACF) reziduala, test veličine Q za pomake 𝑘 ≤ 9, te pridružene empirijske razine signifikantnosti za podatke iz primjera 20. Slika 28: ACF i PACF, Q i p-vrijednosti za primjer 20 (ispis EViews 8.)

96

Statističke Tablice

PRILOZI

Procjene koeficijenata autokorelacije (kao i procjene koeficijenata parcijalne autokorelacije) ne odstupaju 1 značajno od nule (nalaze se unutar istaknutih 2-sigma granica (∓2 ∙ )). Provede li se Ljung-Boxov test √𝑛

za pomak k=9, hipoteze glase: 𝐻0 : 𝜌(1) = 𝜌(2) … = 𝜌(9) = 0, Test veličina je:

𝐻1 : ∃𝜌(𝑗) ≠ 0, 9

𝑄 = 𝑛(𝑛 + 2) ∑ 𝑖=1

𝑗 = 1, 2, … .9.

𝑟𝑖2 = 14,690 𝑛−1

a pridružena empirijska razina signifikantnosti iznosi 0,1000, pa se uz razinu signifikantnosti 𝛼 = 0,05 ili 𝛼 = 0,01 prihvaća hipoteza 𝐻0 , tj. da ne postoji autokorelacija grešaka relacije za sve pomake 𝑘 ≤ 9.

OTKLANJANJE AUTOKORELACIJE

Autokorelacija se otklanja generaliziranom metodom najmanjih kvadrata (GLS - Generalized Least Squares). Generalizirana metoda najmanjih kvadrata koristi tehniku kvazidiferenciranja kako bi se autokorelirana odstupanja ut zamijenila odstupanjima vt koja su neautokorelirana. GENERALIZIRANA METODA NAJMANJIH KVADRATA

Uz pretpostavku da odstupanja slijede autoregresijski proces 1. reda, tj. da vrijedi izraz (117) i kada je poznat , autokorelacija se može riješiti ako se izračunaju generalizirane diferencije vrijednosti zavisne varijable po formuli Yt-Yt-1,

(124)

Yt   0   1 X t  ut

(125)

pri čemu je

Generalizirana diferencijska jednadžba piše se kao

Yt*   0 ( 1   )   1 X * 1t   t

(126)

gdje je   

vt =ut-ut-1 Yt*=Yt-Yt-1 Xt*=X1t-Xt-1

Ocijeni li se jednadžba (124) pomoću OLS, parametri 𝛽̂1 i 𝛽̂2 najbolje su nepristrane linearne ocjene, a DW vrijednost je blizu 2. GLS metoda pomaže u ispravljanju autokorelacije, no postoje slučajevi kada ju nije uputno upotrebljavati: 1. Kada se radi o nepravoj autokorelaciji, tj. kada je uzrok autokorelacije specifikacijska pogreška. Tada je rješenje ispravljanje specifikacijske pogreške. 2. Kada se radi o malim uzorcima teško je naći dobru ocjenu ˆ i, ako se koristi loša ocjena ˆ , pomoću GLS može se dobiti lošije ocjene parametara modela nego što su bile, a kako znamo, kod prisutnosti autokorelacije ocjene parametara dobivene metodom najmanjih kvadrata, neefikasne su, ali nisu pristrane.

97

Statističke Tablice

PRILOZI

METODE PROCJENJIVANJA 

Procjenjivanje autoregresijskog parametra  nije problem, budući da ekonometrijski programski paketi to rade automatski. Ukoliko se radi o malom uzorku podataka, moguće je da će izračunavanje 𝜌̂ pomoću poznatog d i relacije (120) dati bolju ocjenu nego generiranjem pomoću računalne procedure. Postoji nekoliko pristupa procjenjivanju  vrijednosti među kojima se mogu spomenuti:  

Cochran-Orcutt procedura Hildret-Lu procedura

Cochran-Orcutt procedura: Radi se o iterativnoj proceduri kojom računalo izračunava niz vrijednosti 𝜌̂ sve dok razlike među njima nisu zadovoljavajuće male. Hildret-Lu procedura: Zasniva se na definiranju mogućih vrijednosti za 𝜌̂ i ocjenjivanju nekoliko regresija pomoću GLS kako bi se našlo transformaciju koja minimizira RSS.

10.3. HETEROSKEDASTIČNOST Problem heteroskedastičnosti prisutan je kada je narušena pretpostavka o nepromjenjivosti varijance slučajnih varijabli u linearnom regresijskom modelu. S obzirom da je varijanca mjera rasipanja ili disperzije, pod pojmom heteroskedastičnosti podrazumijeva se nejednaka varijanca slučajnih varijabli. Heteroskedastičnost je problem koji je uglavnom povezan s podacima vremenskog presjeka. Proučavamo li vezu između dohotka zaposlenih i potrošnje, interpretacija ocijenjenih parametara zavisit će o tome odnose li se podaci na godine ili zaposlenike, tj. pratimo li vezu kroz vrijeme ili u određenom vremenskom trenutku. Ako se podaci odnose na zaposlenike, ocijenjeni regresijski parametar uz varijablu dohodak zavisit će o distribuciji dohotka. Naime, potrošač s većim dohotkom troši više neko onaj s manjim dohotkom. Zbog toga ćemo imati različitu raspršenost (heteroskedastičnost) odstupanja oko regresijske funkcije, koja ostavlja teške posljedice na ocijenjeni model, koje trebamo znati otkriti i pokušati riješiti. Kada četvrta pretpostavka klasičnog linearnog regresijskog modela nije poštivana, varijanca odstupanja je promjenjiva, tj. zavisi o opažanju i, tj.

var( ui )   i2 (127) tada kažemo da su odstupanja heteroskedastična. Ukoliko je ova varijanca stalna, ona ne zavisi o opažanju i, tj. var( ui )   2

(128)

tada kažemo da su odstupanja homoskedastična. POSLJEDICE HETEROSKEDASTIČNOSTI

98

PRILOZI

Statističke Tablice

Heteroskedastičnost ostavlja ozbiljne i slične posljedice na ocijenjeni model kao i autokorelacija, tako su ocjene parametara nepristrane, ali:  

Nisu više efikasne, tj. nemaju minimalnu varijancu (nisu više BLUE). Ocjena varijance parametara je pristrana, što proizlazi iz pristranosti varijance odstupanja; no ne znamo je li podcijenjena ili precijenjena; zbog toga t i F test nisu valjani.

99

Statističke Tablice

PRILOZI OTKRIVANJE HETEROSKEDASTIČNOSTI

Otkrivanje heteroskedastičnosti nije lak zadatak. To je zbog toga što nam je stvarna varijanca i2 nepoznata, jer ne raspolažemo podacima za cijelu populaciju. Ne postoji opći efikasan i siguran test za otkrivanje heteroskedastičnosti. Među metodama otkrivanja heteroskedastičnosti spominju se grafička metoda te postupci testiranja. GRAFIČKA METODA

Ova je metoda jednostavan početni način za utvrđivanje heteroskedastičnosti. Mogu se prikazati reziduali prema pojedinoj nezavisnoj varijabli ili u slučaju kada više nezavisnih varijabli zajedno uzrokuje heteroskedastičnost, koristi se prikaz reziduala prema ocijenjenoj vrijednosti zavisne varijable. Reziduale je korisno prikazati u (X, Y) prostoru i u (X, u) prostoru. Takvi prikazi daju istu informaciju, ali iz različite perspektive i korisni su i onda kada nismo sigurni koja je od nezavisnih varijabli u višestrukoj regresiji uzrokovala heteroskedastičnost. Katkad je korisno umjesto reziduala ei, prikazati njegove kvadrirane vrijednosti ei2. Iako to nisu stvarne vrijednosti ui2, ei2 su njihova dobra zamjena, pogotovo ako se radi o velikom uzorku. Kraći način u višestrukoj regresiji ispitivanje je grafičkog odnosa između ei2 i 𝑌̂𝑖 zato što je 𝑌̂𝑖 linearna kombinacija nezavisnih varijabli, Xk. PRIMJER 27

Grafička metoda otkrivanja postojanja heteroskedastičnosti Tablica 26: Izdaci za obrazovanje (% GDP), GDP (mlrd $) i broj stanovnika (mil) za grupu zemalja 1980. godine. zemlja Urugvaj Singapur Irska Izrael Mađarska Novi Zeland Portugal Hong Kong Čile Grčka Finska Norveška Danska Turska Austrija Švicarska Saud. Arabija Belgija Švedska Australija Argentina Nizozemska Meksiko Španjolska Brazil Kanada Italija Vel. Britanija Francuska Njemačka Japan

izdaci za obrazovanje 0,22 0,32 1,23 1,81 1,02 1,27 1,07 0,67 1,25 0,75 2,80 4,90 4,45 1,60 4,26 5,31 6,40 7,17 11,22 8,66 5,56 13,41 5,46 4,79 8,92 18,90 15,95 29,90 33,59 38,62 61,61

GDP 10,13 11,34 18,88 20,94 22,16 23,83 24,67 27,56 27,57 40,15 51,62 57,71 66,32 66,97 76,88 101,65 115,97 119,49 124,15 140,98 153,85 169,38 186,33 211,78 249,72 261,4 395,52 534,97 655,29 815,00 1040,45

broj stanovnika 2,90 2,39 3,44 3,87 10,71 3,10 9,93 5,07 11,10 9,60 4,78 4,09 5,12 44,92 7,51 6,37 8,37 9,86 8,31 14,62 27,06 14,14 67,40 37,43 123,03 23,94 57,04 55,95 53,71 61,56 116,78

100

Statističke Tablice

PRILOZI

U grupi zemalja su i male i velike zemlje, koje imaju različite mogućnosti izdvajanja za obrazovanje i ta izdvajanja se kreću od 1,9% do 9% GDP. Ocijenjeni model glasi

ˆ  0 ,3159  0 ,05373G O i i t

(129)

(-0,471) (24,844)

R  0 ,9551 F  617,23 Model izgleda dobro prilagođen podacima. R2 i F vrijednosti su visoke, predznak parametra uz nezavisnu varijablu slaže s a priori očekivanjima. Ipak, budući da se radi o podacima vremenskog presjeka, realno je očekivati prisutnost heteroskedastičnosti. Jasno je da će veće zemlje imati veću varijaciju u izdvajanju za obrazovanje nego one manje. U prvom koraku pogledat ćemo grafove reziduala. Na slici 29 prikazan je dijagram raspršenosti podataka izdvajanja za obrazovanja. 2

Slika 29: Reziduali ocijenjene funkcije izdataka za obrazovanje

5,7

Reziduali

3,7 1,7 -0,3 0

200

400

600

-2,3

800

1000

1200

GDP

-4,3 -6,3

Vidimo da raspršenost raste kako raste GDP. Slika 30: Reziduali i ocijenjene vrijednosti funkcije izdataka za obrazovanje

izdaci za obrazovanje

70 60 50 40 30 20 10 0 -10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 reziduali

ocijenjene vrijednosti

stvardi podaci izdvajanja za obrazovanje

To je još očitije na gornjoj slici gdje je na dnu prikazana krivulja reziduala, a gornje dvije krivulje predstavljaju ocijenjene vrijednosti i stvarne podatke izdvajanja za obrazovanje. Zemlje su poredane po veličini GDP. Očito je da rezidualna varijanca raste od 18. podatka. Iako slike ukazuju na postojanje heteroskedastičnosti, pouzdaniji su pokazatelji testovi.

Grafička metoda ne omogućuje precizno ispitivanje heteroskedastičnosti već je potrebno koristiti rigoroznije metode. Neki od testova koji se uobičajeno koriste za otkrivanje heteroskedastičnosti jesu: White test, Park test, Goldfeld-Quandt test, Glejser test, BreuschPagan test, CUSUMSQ test, te Peak test.

101

Statističke Tablice

PRILOZI GOLDFELD-QUANDT TEST

Ovaj se test vrlo često koristi za otkrivanje heteroskedastičnosti. Jednostavan je i ne zahtijeva poznavanje oblika funkcijske veze između reziduala i nezavisne varijable koja je uzrok heteroskedastičnosti. Osnovna ideja jest da je varijanca pridružena velikim vrijednostima varijable X, značajno različita od varijance pridružene malim vrijednostima varijable X (za koju se pretpostavlja da je razlog heteroskedastičnosti). Ta pretpostavka se testira F testom, gdje je nul hipoteza da je varijanca konstantna (postojanje homoskedastičnosti). Koraci primjene Goldfeld-Quandt testa su: 1. Složiti empirijske podatke varijable X (za koju se pretpostavlja da je razlog heteroskedastičnosti) prema veličini. 2. Izbaciti srednji dio (d) opažanja, obično petinu opažanja. 3. Ocijeniti dvije zasebne regresije, posebno za niske vrijednosti Xi i posebno za visoke vrijednosti varijable X. Svaka regresija imat će (n-d)/2 podataka i [(n-d)/2]-2 stupnjeva slobode. Izračunati RSS1 i RSS2 iz dviju regresija. 4. Izračunati omjer RSS2/RSS1 tako da budu u brojniku RSS za niz većih vrijednosti Xi. Taj omjer je F vrijednosti sa (n-d-4)/2 stupnjeva slobode za brojnik i nazivnik. Ako je veći od kritične tablične F vrijednosti, nul hipoteza da postoji homoskedastičnost se odbacuje. PRIMJER 28

Primjena Goldfeld-Quandtova testa za otkrivanje heteroskedastičnosti Pokazat ćemo primjenu Goldfeld-Quandt testa. U tablici 26 zemlje su već poredane po veličini GDP. Izbacit ćemo 7 zemalja u sredini niza i ocijeniti dvije regresije, za prvu grupu s manjim GDP i za drugu grupu s većim GDP. Rezultati za obje regresije dani su u tablici 27. Tablica 27: Rezultati dviju regresija (Ispis Microsoft Excel) SUMMARY OUTPUT ZEMLJE S NIŽIM DOHOTKOM: 1-12 Regression Statistics Multiple R 0,822157 R Square 0,675942 Adjusted R 0,643536 Square Standard 0,767811 Error Observations 12 ANOVA df Regression Residual Total

1 10 11 Coefficients

Intercept X Variable 1

-0,57305 0,071864

SS 12,29689 5,895339 18,19223

MS 12,29689 0,589534

F 20,85866

Significance F 0,001031

Standard Error 0,493851 0,015735

t Stat

P-value

Lower 95%

-1,16037 4,567128

0,272849 0,001031

-1,67342 0,036804

Upper 95% 0,527317 0,106924

Lower 95,0% -1,67342 0,036804

Upper 95,0% 0,527317 0,106924

102

Statističke Tablice

PRILOZI

SUMMARY OUTPUT ZEMLJE S NIŽIM DOHOTKOM: 20-31 Regression Statistics Multiple R 0,968981 R Square 0,938925 Adjusted R Square 0,932817 Standard Error 4,504387 Observations 12 ANOVA df Regression Residual

1 10

SS 3119,168 202,895

Total

11

3322,063

Coefficients -2,30991

Standard Error 2,249359

t Stat -1,02692

P-value 0,328658

Lower 95% -7,32179

Upper 95% 2,701977

Lower 95,0% -7,32179

Upper 95,0% 2,701977

0,05672

0,004575

12,39892

2,15E-07

0,046527

0,066913

0,046527

0,066913

Intercept X Variable 1

MS 3119,168 20,2895

F 153,7331

Significance F 2,15E-07

Omjer RSS za drugu skupinu zemalja i RSS za prvu skupinu zemalja iznosi 34,41, a kritična F-vrijednost uz 5% signifikantnosti za (n-7-4)/2=10 stupnjeva slobode iznosi 2,97. Kako je kritična vrijednost manja od izračunate, odbacuje se nul hipoteza da postoji homoskedastičnost. WHITE TEST

Pretpostavimo model 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝑢𝑖 sa konstantnim članom i dva regresora. Koraci provođenja White testa su:  Izračunati reziduale 𝜀̂𝑖 polaznog modela metodom najmanjih kvadrata;  Procijeniti pomoćne regresijske jednadžbe u kojoj su kvadrirani reziduali iz polaznog modela 𝜀̂𝑖2 vrijednosti zavisne varijable, a regresorske varijable su: regresorske varijable polaznog modela, njihovi kvadrati te njihovi međusobni umnošci: 2 2 𝑢̂𝑖2 = 𝛼1 + 𝛼2 𝑋2𝑖 + 𝛼3 𝑋3𝑖 + 𝛼4 𝑋2𝑖 + 𝛼5 𝑋3𝑖 + 𝛼6 𝑋2𝑖 𝑋3𝑖 + 𝜀𝑖 .

Nultom se hipotezom pretpostavlja homoskedastičnost, tj. nepromjenjivost varijance: 𝐻0 : 𝛼2 = 𝛼3 = ⋯ = 𝛼𝑚 = 0. Test veličina Whiteovog testa je 𝑊 = 𝑛𝑅 2

(130)

pri čemu je n veličina uzorka, a 𝑅 2 je koeficijent determinacije pomoćne regresijske jednadžbe. W test veličina pripada 𝜒 2 distribuciji s r stupnjeva slobode, gdje je r broj regresorskih varijabli u pomoćnoj regresijskoj jednadžbi, odnosno broj parametara ne računajući konstantni član. Ako je izračunata W veličina uz zadanu razinu signifikantnosti α viša od tablične 𝜒 2 vrijednosti odbacuje se nulta hipoteza o homoskedastičnosti.

103

Statističke Tablice

PRILOZI OTKLANJANJE HETEROSKEDASTIČNOSTI

Kod otkrivanja heteroskedastičnosti dobro je u praksi primijeniti više metoda s obzirom da niti jedna od njih nije sasvim pouzdana. Znamo da su ocjene parametara kod prisutnosti heteroskedastičnosti neefikasne i zato ukoliko se utvrdi njeno postojanje model je potrebno transformirati kako bismo dobili odstupanja koja se ponašaju homoskedastično. Način transformacije modela zavisi o tome je li stvarna varijanca pogreške i2 poznata ili nije. Uklanjanje heteroskedastičnosti kada je varijanca poznata. Vagana metoda najmanjih kvadrata

Kada je varijanca odstupanja i2 poznata, heteroskedastičnost je lako riješiti. Objasnit ćemo to na modelu jednostavne regresije:

Yi  0  1 X 1  ui

(131) kojeg transformiramo tako da cijelu jednadžbu podijelimo sa i kojeg dobivamo iz poznate varijance i2:

1 Yi X u   0     1 1  i i i i i 

(132)

Odstupanja su sada transformirana i označavaju se sa vt: vt 

ui

(133) i Kada se upotrijebi metoda najmanjih kvadrata za ocjenu modela (131), kaže se da se koristi vagana metoda najmanjih kvadrata (WLS-Weighted Least Squares). PRIMJER 29

Primjena vagane metode najmanjih kvadrata za uklanjanje heteroskedastičnosti Prikazat će se primjena vagane metode najmanjih kvadrata za uklanjanje heteroskedastičnosti otkrivene u primjeru 27. Radi se o izdvajanju koje ovisi o visini GDP, a znamo da zemlje s brojnijom populacijom uglavnom imaju i veći GDP, a i veća ulaganja u obrazovanje. Zbog toga očekujemo da je varijanca proporcionalna varijabli broj stanovnika (P). Primijenit ćemo vaganu metodu najmanjih kvadrata tako da ćemo cijelu funkciju podijeliti s varijablom P, tj.

Oi G u 1  0  1 i  i p Pi Pi Pi

(134)

odnosno ako uvedemo nove oznake O/P=OP, i/P=RP, G/P=GP i u/P=v, imat ćemo nove varijable: OP: izdvajanje za obrazovanje po stanovniku, GP bruto društveni proizvod po stanovniku, tj. GDP PC, a RP je recipročna vrijednost varijable broj stanovnika,

OPi  0 RPi  1GPi  vi

(135)

Sada imamo regresiju kroz ishodište. Rezultati su u tablici u nastavku.

104

Statističke Tablice

PRILOZI Tablica 28: Rezultati vagane metode najmanjih kvadrata SUMMARY OUTPUT Regression Statistics Multiple R 0,905689 R Square 0,820273 Adjusted R Square 0,779593 Standard Error 0,15437 Observations 31 ANOVA df

MS 1,577025 0,02383

F 66,17795

Significance F 2,45E-11

Regression Residual

2 29

SS 3,15405 0,691072

Total

31

3,845122

GP

Coefficients 0,062988

Standard Error 0,003988

t Stat 15,7927

P-value 8,83E-16

Lower 95% 0,05483

Upper 95% 0,071145

Lower 95,0% 0,05483

Upper 95,0% 0,071145

RP

-0,1457

0,21865

-0,66638

0,510433

-0,59289

0,301485

-0,59289

0,301485

Ako usporedimo slike reziduala, vidimo da su onu ravnomjernije raspršeni oko nule. Slika 31: Reziduali ocijenjene funkcije izdataka za obrazovanje

Reziduali

0,5 0,3 0,1 -0,1 0

5

10

15

20

-0,3 GDPpc

Ocijenjeni parametri originalnog modela i transformiranog modela vrlo su slični po veličini, nešto su veći kod transformiranog modela, dok su t vrijednosti manje. Zaključujemo da je heteroskedastičnost u originalnom modelu podcijenila standardne pogreške. Koeficijent determinacije R2 je visok, ali nije usporediv jer su u transformiranom modelu radi o drugoj zavisnoj varijabli. Primijenjen je ponovo Goldfeld-Quandt test na transformirani model. Prije toga je bilo potrebno ponovno sortirati podatke jer se radi o novoj varijabli, a to je GDPPC. Opet su ocijenjene dvije regresije i kroz ishodište, za prvih 12 i posljednjih 12 zemalja rangiranih prema GDPPC. Dobili smo da je RSS omjer 0,3875. To je nešto veći iznos od tablične kritične vrijednosti FC=2,987 za 10 d.f. i 5% signifikantnosti, no, ako uzmemo signifikantnost od 1%, FC= 4,85, prihvaćamo nul hipotezu da je prisutna homoskedastičnost. Uklanjanje heteroskedastičnosti kada varijanca nije poznata

Na žalost, u praksi je stvarna vrijednost varijance pogreške i2 rijetko poznata. Zbog toga smo prisiljeni pretpostavljati oblik heteroskedastičnosti i transformirati model kako bi imao odstupanja sa svojstvom homoskedastičnosti. Te transformacije su u literaturi poznate pod

105

PRILOZI

Statističke Tablice

nazivom transformacije stabiliziranja varijance. Neke od tih transformacija su: varijanca pogreške je proporcionalna varijabli X te varijanca pogreške je proporcionalna X2. Varijanca pogreške je proporcionalna varijabli X2

Ako je graf raspršenosti reziduala ocijenjenog modela sličan slici (29), onda to može biti pokazatelj da je varijanca pogreške proporcionalna varijabli X2. Tada transformiramo originalni model tako da obje strane jednadžbe podijelimo s X.

10.4. NORMALNOST GREŠAKA RELACIJE Normalna distribuiranost grešaka relacije nije nužna u postupku procjene parametara, no pretpostavka o normalnosti neophodna je pri testiranju hipoteza i izračunavanju intervalnih procjena parametara. F-test, t-test i 𝜒 2 -test polaze od pretpostavke normalne razdiobe grešaka relacije. Intervalne procjene parametara zavise o normalnoj distribuiranosti parametara preko t-distribucije. Ako nije ispunjena pretpostavka o normalnosti, procjene parametara metodom najmanjih kvadrata i dalje su najbolje nepristrane procjene, no t-test, F-test i 𝜒 2 -test više nisu pouzdani, a nenormalnost može naročito utjecati na intervalne procjene, posebno ako je distribucija grešaka relacije asimetrična. OTKRIVANJE NENORMALNOSTI GREŠAKA RELACIJE

Nenormalnost grešaka relacije može se ispitati, između ostaloga i provođenjem Jarque-Bera testa. JARQUE-BERA TEST

Pretpostavka o normalnosti grešaka relacije može se ispitati i pomoću Jarque-Beraovog testa. Ovim se testom, koji koristi koeficijent asimetrije i koeficijent zaobljenosti reziduala procijenjenih metodom najmanjih kvadrata, ispituje odstupaju li procijenjene veličine značajno od vrijednosti tih mjera za normalnu distribuciju. Pri tome je poznato da je za normalnu distribuciju koeficijent asimetrije 𝛼3 = 0, a koeficijent zaobljenosti 𝛼4 = 3. Test veličina je: 𝛼32 (𝛼4 − 3)2 (136) 𝐽𝐵 = [ + ] 6 24 Jarque-Bera (JB) test veličina, pod pretpostavkom normalnosti, pripada 𝜒 2 distribuciji s 2 stupnja slobode. Nulta hipoteza: „greške relacije su normalno distribuirane “ odbacuje se kao lažna ako je 𝐽𝐵 > 𝜒𝛼2 (2) ili alternativno ako je empirijska razina signifikantnosti p manja od teorijske razine signifikantnosti. PRIMJER 30

Testiranje normalnosti grešaka relacije Jarque-Bera testom Testiranje normalnosti grešaka relacije pokazat će se na rezidualima iz primjera 20. Rezultati testa prikazani su na sljedećoj slici. Slika 32: Histogram rezidualnih odstupanja i rezultati Jarque-Bera testa (Ispis EViews 8)

106

PRILOZI

Statističke Tablice

S obzirom da je empirijska razina signifikantnosti 𝑝 = 0,824082 nulta se hipoteza prihvaća kao moguća. Alternativno, 𝐽𝐵 = 0,386972 < 𝜒𝛼2 (2) = 5,99.

107

Statističke Tablice

PRILOZI

ZADACI ZA VJEŽBU 1.

Ocijenjeni su modeli kumulativnih troškova održavanja strojeva (O) u tvornici za vrijeme od 27 tjedana. Kao nezavisne varijable uzete su starost strojeva (G) i sati rada strojeva (S). Ocijenjeni su modeli: Model A:

ˆ  630 ,15  8 ,48G O t t t

(22,2) R 2  0 ,897

Model B:

ˆ  875,05  50 ,25 S O t t t

(16,25) R 2  0 ,843

Model C:

ˆ  7 ,56  25 ,63G  149 ,15 S O t t t t

(1,75)

(-0,49)

R  0 ,942 2

a) Kakve predznake parametara očekujete? b) Koji biste model prihvatili i zašto? c) Koeficijent jednostavne linearne korelacije između varijabli G i S iznosi 0,996 vodeći računa o ostalim pokazateljima u modelu C. obrazložite postojanje multikolinearnosti. 2.

U tablici su dati podaci o količini prodanih proizvoda (X) i ukupnog prihoda poduzeća (Y): Y X

175 5

370 10

520 15

640 20

795 25

859 30

854 35

840 40

782 45

640 50

525 55

a) Ocijenite linearnu regresijsku funkciju. b) Testirajte ocijenjenu funkciju na prisutnost autokorelacije prvog reda uz signifikantnost 5%. c) Prikažite graf raspršenosti reziduala. d) Na osnovi grafičkog prikaza zaključite što je uzrok autokorelacije. e) Kako se takva autokorelacije zove.? f) Može li se primijeniti GLS za otklanjanje ove vrste autokorelacije? 3.

Na osnovi podataka popisa stanovništva ocijenjen je model Oi   0   1Yi  ui za 59 popisnih područja, gdje je O omjer broja domaćinstava s vlastitim stambenim prostorom i broja domaćinstava s iznajmljenim stambenim prostorom, a Y dohodak domaćinstava. Ocijenjeni model glasi: Oˆ i  2 ,22  0 ,000297Yi t

(-3,64) (3,50) R 2  0 ,597 n  59

a) Obrazložite očekujete li prisutnost heteroskedastičnosti u modelu. b) Kako biste primijenili WLS metodu na ovaj model.

108

160 60

Statističke Tablice

PRILOZI

RJEŠENJA ZADATAKA 1.

2.

a) Parametri uz obje nezavisne varijable bi trebali imati pozitivan predznak, jer porast godina starosti, a isto tako i sati rada strojeva utječu na trošenje pa tako i na izdatke za održavanje strojeva. b) Prihvatljiv su modeli A i B, dok model C nije. Nezavisna varijabla u modelu A ima očekivani predznak i značajna je za objašnjenje kumulativnih troškova održavanja. 90% varijacija tih troškova objašnjeno je modelom. Isto tako je i s modelom B, samo što ima nešto manji koeficijent determinacije. U modelu C varijabla S ima neočekivani predznak, a nije značajna za model, kao ni varijabla G. c) Jednostavni koeficijent korelacije pokazuje da se radi o visoko koreliranim varijablama, koje zapravo mjere istu pojavu, tj. istrošenost strojeva. Visoka vrijednost R2 i niske t-vrijednosti nezavisnih varijabli su pokazatelji jake multikolinearnosti. Posljedica je promijenjen predznak uz varijablu S i neefikasne ocjene parametara. a)

Yˆi  530 ,530  2 ,03497 X i t

(0,464)

n  12 R  0 ,0211 DW  0,3994 F  0,215 2

Residuals

b) H0:=0. HA:≠0. dL=0.971. dU=1.331. d
X

d) Ocijenjena je linearna funkcija umjesto polinoma. e) Neprava autokorelacija. f) Ne. Potrebno je ispraviti grešku specifikacije koja je uzrok autokorelacije. 3.

a) Radi se o podacima vremenskog presjeka i očekujemo različitu raspršenost podataka po popisnim područjima. b) Viša razina dohotka utječe na veću raspršenost zavisne varijable. Vaganu metodu najmanjih kvadrata primijenit ćemo tako da cijeli model podijelimo varijablom dohodak, koja je uzrok heteroskedastičnosti.

109

Statističke Tablice

PRILOZI

STATISTIČKE TABLICE Kritične vrijednosti Studentove t distribucije dvostrani test s,s,

𝛼 = 0,10

𝛼 = 0,05

𝛼 = 0,025

𝛼 = 0,01

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120 ∞

6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,676 1,671 1,667 1,664 1,662 1,660

12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,009 2,000 1,994 1,990 1,987 1,984

31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,403 2,390 2,381 2,374 2,368 2,364

63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,678 2,660 2,648 2,639 2,632 2,626

1,658 1,645

1,980 1,960

2,358 2,326

2,617 2,576

𝛼 = 0,05

𝛼 = 0,025

𝛼 = 0,01

𝛼 = 0,005

jednostrani test

Statističke Tablice

PRILOZI

Kritične vrijednosti F distribucije pri razini značajnosti 𝜶 = 𝟎, 𝟎𝟓

n

1

2

3

4

5

6

7

8

9

10

20

30

120



1

161,4

199,5

215,7

224,6

230,2

234,0

236,8

238,9

240,5

241,9

248,0

250,1

253,3

254,3

2

18,51

19,00

19,16

19,25

19,30

19,33

19,35

19,37

19,38

19,40

19,45

19,46

19,49

19,50

3

10,13

9,55

9,28

9,12

9,01

8,94

8,89

8,85

8,81

8,79

8,66

8,62

8,55

8,53

4

7,71

6,94

6,59

6,39

6,26

6,16

6,09

6,04

6,00

5,96

5,80

5,75

5,66

5,63

5

6,61

5,79

5,41

5,19

5,05

4,95

4,88

4,82

4,77

4,74

4,56

4,50

4,40

4,37

6

6,99

5,14

4,76

4,53

4,39

4,28

4,21

4,15

4,10

4,06

3,87

3,81

3,70

3,67

7

5,59

4,74

4,35

4,12

3,97

3,87

3,79

3,73

3,68

3,64

3,44

3,38

3,27

3,23

8

5,32

4,46

4,07

3,84

3,69

3,58

3,50

3,44

3,39

3,35

3,15

3,08

2,97

3,93

9

5,12

4,26

3,86

3,63

3,48

3,37

3,29

3,23

3,18

3,14

2,94

2,86

2,75

2,71

10

4,96

4,10

3,71

3,48

3,33

3,22

3,14

3,07

3,02

2,98

2,77

2,70

2,58

2,54

11

4,84

3,98

3,59

3,36

3,20

3,09

3,01

2,95

2,90

2,85

2,65

2,57

2,45

2,40

12

4,75

3,89

3,49

3,26

3,11

3,00

2,91

2,85

2,80

2,75

2,54

2,47

2,34

2,30

13

4,67

3,81

3,41

3,18

3,03

2,92

2,83

2,77

2,71

2,67

2,46

2,38

2,25

2,21

14

4,60

3,74

3,34

3,11

2,96

2,85

2,76

2,70

2,65

2,60

2,39

2,31

2,18

2,13

15

4,54

3,68

3,29

3,06

2,90

2,79

2,71

2,64

2,59

2,54

2,33

2,25

2,11

2,07

16

4,49

3,63

3,24

3,01

2,85

2,74

2,66

2,59

2,54

2,49

2,28

2,19

2,06

2,01

17

4,45

3,59

3,20

2,96

2,81

2,70

2,61

2,55

2,49

2,45

2,23

2,15

2,01

1,96

18

4,41

3,55

3,16

2,93

2,77

2,66

2,58

2,51

2,46

2,41

2,19

2,11

1,97

1,92

19

4,38

3,52

3,13

2,90

2,74

2,63

2,54

2,48

2,42

2,38

2,16

2,07

1,93

1,88

20

4,35

3,49

3,10

2,87

2,71

2,60

2,51

2,45

2,39

2,35

2,12

2,04

1,90

1,84

21

4,32

3,47

3,07

2,84

2,68

2,57

2,49

2,42

2,37

2,32

2,05

1,96

1,87

1,81

22

4,30

3,44

3,05

2,82

2,66

2,55

2,46

2,40

2,34

2,30

2,07

1,98

1,84

1,78

23

4,28

3,42

3,03

2,80

2,64

2,53

2,44

2,37

2,32

2,27

2,05

1,96

1,81

1,76

24

4,26

3,40

3,01

2,78

2,62

2,51

2,42

2,36

2,30

2,25

2,03

1,94

1,79

1,73

25

4,24

3,39

2,99

2,76

2,60

2,49

2,40

2,34

2,28

2,24

2,01

1,92

1,77

1,71

26

4,23

3,37

2,98

2,74

2,59

2,47

2,39

2,32

2,27

2,22

1,99

1,90

1,75

1,69

27

4,21

3,35

2,96

2,73

2,57

2,46

2,37

2,31

2,25

2,20

1,97

1,88

1,73

1,67

28

4,20

3,34

2,95

2,71

2,56

2,45

2,36

2,29

2,24

2,19

1,96

1,82

1,71

1,65

29

4,18

3,33

2,93

2,70

2,55

2,43

2,35

2,28

2,22

2,18

1,94

1,81

1,70

1,64

30

4,17

3,32

2,92

2,69

2,53

2,42

2,33

2,27

2,21

2,16

1,93

1,79

1,68

1,62

40

4,08

3,23

2,84

2,61

2,45

2,34

2,25

2,18

2,12

2,08

1,84

1,69

1,58

1,51

60

4,00

3,15

2,76

2,53

2,37

2,25

2,17

2,10

2,04

1,99

1,75

1,59

1,47

1,39

120

3,92

3,07

2,68

2,45

2,29

2,17

2,09

2,02

1,96

1,91

1,66

1,50

1,35

1,25



3,84

3,00

2,60

2,37

2,21

2,10

2,01

1,94

1,88

1,83

1,57

1,39

1,22

1,00

m

Statističke Tablice

PRILOZI

Kritične vrijednosti 𝝌𝟐 distribucije

s.s.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100

0,995 0,010 0,072 0,207 0,412 0,676 0,989 1,344 1,735 2,156 2,603 3,074 3,565 4,075 4,601 5,142 5,697 6,265 6,844 7,434 8,034 8,643 9,260 9,886 10,520 11,160 11,808 12,461 13,121 13,787 20,707 27,991 35,534 43,275 51,172 59,196 67,328

0,99 0,020 0,115 0,297 0,554 0,872 1,239 1,646 2,088 2,558 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 8,897 9,542 10,196 10,856 11,524 12,198 12,879 13,565 14,256 14,953 22,164 29,707 37,485 45,442 53,540 61,754 70,065

0,975 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 10,283 10,982 11,689 12,401 13,120 13,844 14,573 15,308 16,047 16,791 24,433 32,357 40,482 48,758 57,153 65,647 74,222

0,95 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 11,591 12,338 13,091 13,848 14,611 15,379 16,151 16,928 17,708 18,493 26,509 34,764 43,188 51,739 60,391 69,126 77,929

0,90 0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 13,240 14,041 14,848 15,659 16,473 17,292 18,114 18,939 19,768 20,599 29,051 37,689 46,459 55,329 64,278 73,291 82,358

0,10 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 51,805 63,167 74,397 85,527 96,578 107,565 118,498

0,05 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 55,758 67,505 79,082 90,531 101,879 113,145 124,342

0,025 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,195 44,461 45,722 46,979 59,342 71,420 83,298 95,023 106,629 118,136 129,561

0,01 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 63,691 76,154 88,379 100,425 112,329 124,116 135,807

0,005 7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,801 34,267 35,718 37,156 38,582 39,997 41,401 42,796 44,181 45,559 46,928 48,290 49,645 50,993 52,336 53,672 66,766 79,490 91,952 104,215 116,321 128,299 140,169

Statističke Tablice

PRILOZI

Kritične vrijednosti Durbin‒Watsonova DW testa (pri razini značajnosti α=0,05) k=1 n 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 55 60 65 70 75 80 85 90 95 100 150 200

𝒅𝑳 0,610 0,700 0,763 0,724 0,879 0,927 0,971 1,010 1,045 1,077 1,106 1,133 1,158 1,180 1,201 1,221 1,239 1,257 1,273 1,288 1,302 1,316 1,328 1,341 1,352 1,363 1,373 1,383 1,993 1,402 1,411 1,419 1,427 1,435 1,442 1,475 1,503 1,528 1,549 1,567 1,583 1,598 1,611 1,624 1,635 1,645 1,654 1,720 1,758

k=2 𝒅𝑼 1,400 1,356 1,332 1,320 1,320 1,324 1,331 1,340 1,350 1,361 1,371 1,381 1,391 1,401 1,411 1,420 1,429 1,437 1,446 1,454 1,461 1,469 1,476 1,483 1,489 1,496 1,502 1,508 1,514 1,519 1,525 1,530 1,535 1,540 1,544 1,566 1,585 1,601 1,616 1,629 1,641 1,652 1,662 1,671 1,679 1,687 1,694 1,746 1,778

𝒅𝑳 0,467 0,559 0,629 0,697 0,658 0,812 0,861 0,905 0,946 0,982 1,015 1,046 1,074 1,100 1,125 1,147 1,168 1,188 1,206 1,224 1,240 1,255 1,270 1,284 1,297 1,309 1,321 1,333 1,343 1,354 1,364 1,373 1,382 1,391 1,430 1,462 1,490 1,514 1,536 1,554 1,571 1,586 1,600 1,612 1,623 1,634 1,706 1,748

k=3 𝒅𝑼 1,896 1,777 1,699 1,641 1,604 1,579 1,562 1,551 1,543 1,539 1,536 1,535 1,536 1,537 1,538 1,541 1,543 1,546 1,550 1,553 1,556 1,560 1,563 1,567 1,570 1,574 1,577 1,580 1,584 1,587 1,590 1,594 1,597 1,600 1,615 1,628 1,641 1,652 1,662 1,672 1,680 1,688 1,696 1,703 1,709 1,715 1,760 1,789

𝒅𝑳 0,368 0,455 0,525 0,595 0,658 0,715 0,767 0,814 0,857 0,897 0,933 0,967 0,998 1,026 1,053 1,078 1,101 1,123 1,143 1,162 1,181 1,198 1,214 1,229 1,244 1,258 1,271 1,283 1,295 1,307 1,318 1,328 1,338 1,383 1,421 1,452 1,480 1,503 1,525 1,543 1,560 1,575 1,589 1,602 1,613 1,693 1,738

k=4 𝒅𝑼 2,287 2,128 2,016 1,928 1,864 1,816 1,779 1,750 1,728 1,710 1,696 1,685 1,676 1,669 1,664 1,660 1,656 1,654 1,652 1,651 1,650 1,650 1,650 1,650 1,650 1,651 1,652 1,653 1,654 1,655 1,656 1,658 1,659 1,666 1,674 1,681 1,689 1,696 1,703 1,709 1,715 1,721 1,726 1,732 1,736 1,774 1,799

𝒅𝑳 0,296 0,376 0,444 0,512 0,574 0,632 0,685 0,734 0,779 0,820 0,859 0,894 0,927 0,958 0,986 1,013 1,038 1,062 1,084 1,104 1,124 1,143 1,160 1,177 1,193 1,208 1,222 1,236 1,249 1,261 1,273 1,285 1,336 1,378 1,414 1,444 1,471 1,494 1,515 1,534 1,550 1,566 1,579 1,592 1,679 1,728

k=5 𝒅𝑼 2,588 1,414 2,283 2,177 1,094 2,030 1,977 1,935 1,900 1,872 1,848 1,828 1,812 1,797 1,785 1,775 1,767 1,759 1,753 1,747 1,743 1,739 1,735 1,732 1,730 1,728 1,726 1,724 1,723 1,722 1,722 1,721 1,720 1,721 1,724 1,727 1,731 1,735 1,739 1,743 1,747 1,751 1,755 1,758 1,788 1,810

𝒅𝑳 0,243 0,316 0,379 0,445 0,505 0,562 0,615 0,664 0,710 0,752 0,792 0,829 0,863 0,895 0,925 0,953 0,979 1,004 1,028 1,050 1,071 1,090 1,109 1,127 1,144 1,160 1,175 1,190 1,204 1,218 1,230 1,287 1,335 1,374 1,408 1,438 1,464 1,487 1,507 1,525 1,542 1,557 1,571 1,665 1,718

𝒅𝑼 2,822 2,645 2,506 2,390 2,296 2,220 2,157 2,104 2,060 2,023 1,991 1,964 1,940 1,920 1,902 1,886 1,873 1,861 1,850 1,841 1,833 1,825 1,819 1,813 1,808 1,803 1,799 1,795 1,792 1,789 1,786 1,776 1,771 1,768 1,767 1,767 1,768 1,770 1,772 1,774 1,776 1,778 1,780 1,802 1,820

LITERATURA

LITERATURA Bahovec, Vlasta, i Nataša Erjavec. Uvod u ekonometrijsku analizu. Zagreb: Element d.o.o., 2009. Baltagi, Badi H. Econometrics. Berlin: Springer, 2011. Belullo, Alen. Uvod u ekonometriju. Pula: Odjel za ekonomiju i turizam ˝Dr.Mijo Mirković˝, 2011. Berenson, Mark L. Basic business statistics. New Jersey: Prentice Hall, 2012. Biljan‒August, Maja, Snježana Pivac, i Ana Štambuk. Statistička analiza u ekonomiji. Rijeka: Ekonomski fakultet Sveučilišta u Rijeci, 2009. ———. Uporaba statistike u ekonomiji. Rijeka: Ekonomski fakultet Sveučilišta u Rijeci, 2009. Brockwell, Peter J., i Richard A. Davis. Introduction to time series and forecasting. New York: Springer, 2002. Carnot, Nicolas, Vincent Koen, i Bruno Tissot. Econometric forecasting. Great Britain: Palgarve Macmilan, 2005. Castle, Jennifer L., i Neil Shepard. The methodology and oractice of econoemtrics. Oxford: Oxford University Press, 2009. Di Fonzo, Tommaso. Serie storiche economiche. Urbino: Arti Grafiche Editoriali Srl, 2005. Gill, John, i Phil Jonson. Research methods for managers. London: Sage Publication, 2002. Greene, William H. Econometric analysis. New Jersey: Prentice Hall, 2003. Gujarati, Damodar.Essentials of Econometrics. New York: McGraw-Hill, 1992. Hayashi, Fumio. Econometrics. New Jersey: Princeton University Press, 2000. Hubler, Olaf, i Joachim Frohn. Modern econometric analysis. Berlin: Springer, 2006. IHS. EVIews 8 Users Guide II. Irvine CA: IHS Global Inc., 2013. Jovičić, Milena, i Radmila Dragutinović Mitrović. Ekonometrijski metodi i modeli. Beograd: Univerzitet u Beogradu, Ekonomski fakultet, 2011. Jurun, Elza. Kvantitativne metode u ekonomiji. Split: Ekonomski fakultet Sveučilišta u Splitu, 2007. Lovrić, Ljiljana. Uvod u ekonometriju. Rijeka: Ekonomski fakultet Sveučilišta u Rijeci, 2005. Lütkepohl, Helmut. New introduction to multiple time series analysis. Berlin: Springer, 2005.

LITERATURA Maddala, S. Introduction to Econometrics, Second Edition. New York: Macmillian Publishing Company, 1992. Mladenović, Zorica, i Aleksandra Nojković. Primenjena analiza vremenskih serija. Beograd: Centar za izdavačku delatnost Ekonomskog fakulteta u Beograd, 2012. Molnar, Alan T. Econometric Forecasting. New York: Nova Science Publisher, 2010. Peracchi, Franco. Econometrics. England: John Wiley & Sons, 2001.

Related Documents


More Documents from ""