Probleme Rezolvate Statistica - Partea Intai

  • Uploaded by: Diana Andreea
  • 0
  • 0
  • February 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Probleme Rezolvate Statistica - Partea Intai as PDF for free.

More details

  • Words: 9,650
  • Pages: 27
Loading documents preview...
Statistica –probleme rezolvate – partea I Pb. 1. Următoarea serie de date arată preţul de vânzare (sute lei) pentru 13 lucrări de grafică la o licitaţie de obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37. Se cere: a) să se calculeze şi să se interpreteze indicatorii tendinţei centrale; b) să se stabilească dacă media este reprezentativă; c) să se calculeze şi să se interpreteze cuartilele acestei serii de date; d) optiunea Descriptive Statistics din Data Analysis Excel; e) să se analizeze asimetria acestei serii de date; f) stabiliţi valoarea de adevăr a următoarelor afirmaţii, justificând răspunsurile: f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei; f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei; f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei; f4) pentru 75% dintre obiecte s-a obţinut un pret de cel putin 36 sute lei; f5) precizati care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers în raport cu datele iniţiale; f6) coeficientul de variaţie este 26,33%; f7) media este reprezentativă. Rezolvare: a) o Populaţia statistică este mulţimea lucrarilor de grafică puse în vânzare la licitaţiile cu obiecte de artă. o Unitatea statistică este o lucrare de grafică pusă în vânzare la o licitaţie. o Variabila statistică sau caracteristica de interes, notată cu X, arată preţul de vânzare, în sute lei, al unei lucrări de grafică. o Pentru un eşantion de volum n=13 unităţi statistice (lucrări de grafică), se cunoaşte preţul de vânzare, adică avem următoarea serie statistică simplă sau nesistematizată de date numerice: {x1=51, x2=60, x3=72, x4=35, x5=32, x6=57, x7=63, x8=61, x9=48, x10=33, x11=67, x12=54, x13=xn=37}. o Pentru o serie simplă de date numerice { x1 , x2 ,..., xn } , n

x1 + x2 + ... + xn = n n Valorile xi ale variabilei X - preţul de vânzare (sute lei) x1= 51 x2= 60 x3= 72 x4= 35 x5= 32 x6= 57 x7= 63 x8= 61 x9= 48 x10=33 x11=67 x12=54 x13=37

media aritmetică (Mean) este Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13

∑ xi . i =1

x=

13

∑xi = 670 i =1

1

13

∑ xi

sute lei, adică preţul mediu de x1 + x2 + ... + x13 i =1 670 = = = 51,5385 ≅ 51,54 13 13 13 vânzare al unei lucrări de grafică este de 51,54 sute lei.

o În cazul nostru,

x=

o Pentru a determina Mediana (Median) unei serii simple de date, se parcurg următoarele etape: • Valorile seriei de date se ordonează crescător: x(1) ≤ x( 2 ) ≤ ... ≤ x( n−1) ≤ x( n ) , unde x( i ) , i =1, n reprezintă a i-a valoare din şirul ordonat crescător de date numerice (astfel, x(1) este prima valoare din şirul ordonat crescător, adică cea mai mică valoare, x( 2 ) este următoarea valoare în ordine crescătoare şi aşa mai departe până la x( n ) , care este cea mai mare valoare). • Pentru această serie, cele n=13 valori ordonate crescător sunt: x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63, x(12)=67, x(13)=72. • Se stabileşte locul medianei:

n +1 13 +1 = = 7 ∈N 2 2

• Mediana este a 7-a valoare din şirul ordonat de date, adică Me = x( 7 ) = 54 sute de lei (valoarea din mijlocul seriei ordonate de date).

x( 1) ≤ x( 2 ) ≤ x( 3) ≤ x( 4 ) ≤ x( 5) ≤ x( 6 ) ≤ x( 7 ) ≤ x( 8) ≤ x( 9 ) ≤ x( 10 ) ≤ x( 11) ≤ x( 12 ) ≤ x( 13)

              50%

↑ Me

               50%

54 • Interpretarea: jumătate dintre unităţile statistice din eşantion au nivelul variabilei de interes mai mic sau egal cu Mediana, iar restul au nivelul variabilei de interes cel puţin egal cu Mediana, adică jumătate dintre lucrările de grafică licitate s-au vândut cu mai puţin de 54 sute lei, iar restul s-au vândut cu un preâ mai mare de 54 sute lei. o Modul (Mode) sau valoarea modală este acea valoare sau variantă de răspuns care apare cu cea mai mare frecvenţă. În cazul nostru se observă că niciuna dintre valorile seriei de date nu are o frecvenţă mai mare ca 1, adică avem numai valori distincte, prin urmare, seria nu are valoare modală. b) pentru a stabili dacă media este reprezentativă, se calculează coeficientul de variaţie al seriei de date, adică v =

s x

⋅ 100 , unde s

= s2

este abaterea standard a seriei de date.

o Dispersia de selecţie (sample variance) pentru o serie simplă de date numerice asupra variabilei X este n

2 2 ∑i=1 ( xi − x ) ( x1 − x ) + ... + ( xn − x ) 2 s = =

n −1

2

.

n −1

Calculele intermediare sunt prezentate în tabelul de mai jos:

2

Nr. crt.

Valorile xi

1

x1= 51

2

x2= 60

3

x3= 72

4 5 6 7 8 9 10 11 12

x4= 35 x5= 32 x6= 57 x7= 63 x8= 61 x9= 48 x10=33 x11=67 x12=54

13

x13=37

( xi − x ) 2

( x1 − x ) 2 = ( 51 − 51,54) 2 = 0,2916 ( x 2 − x ) 2 = ( 60 − 51,54) 2 = 71,5716 ( x3 − x ) 2 = ( 72 − 51,54) 2 = 418,6116 ( x4 − x ) 2 = ( 35 − 51,54) 2 = 273,5716 381,8116 29,8116 131,3316 89,4916 12,5316 343,7316 239,0116 = 6,0516

( x12 − x ) 2 = ( 54 − 51,54) 2 ( x13 − x ) 2 = ( 37 − 51,54) 2 = 211,4116

13

∑xi = 67

13

2 ∑ ( xi − x ) = 2209,231

i =1

0

i =1

s2 =

x = 51,54

s =

2209,231 = 184,1026 13 −1 s 2 = 184,1026 =13,5684

v =26,33% 13

adică dispersia (sample variance) este

s2 =

∑(x i =1

i

− x)

2

=

, 2209,231 = 184,1026 12

13 − 1 iar abaterea standard (standard deviation) este s = s = 184,1026 =13,5684 sute lei, cu interpretarea că valorile individuale ale seriei se abat, în medie, cu 13,5684 sute lei faţă de nivelul mediu de 51,84 sute lei al preţului de vânzare din eşantion. 2

o Coeficientul de variaţie este v =

s x

⋅100 =

13,5684 ⋅100 = 26,33% < 35% , 51,54

ceea ce indică faptul că seria de

date este omogenă; media este reprezentativă pentru colectivitate, ca indicator al tendinţei centrale.

3

c) Cuartilele seriei de date sunt Q1 , Q2 = Me, Q3 , iar pentru determinarea lor, seria de date trebuie să fie ordonată crescător x(1) ≤ x( 2 ) ≤ ... ≤ x( n −1) ≤ x( n ) . o Q1 – cuartila de ordinul 1 sau cuartila inferioară se determină astfel: •

se stabileşte locul lui Q1 :

n+1 13 + 1 ⋅1 = ⋅ 1 = 3,50 ∉ N, dar 3 < 3,50 < 4 4 4

(locul lui Q1 cuartilei este între 3 şi 4, astfel că Q1 se va găsi între a 3-a şi a 4-a valoare din şirul ordonat crescător) x + x( 4 ) 35 + 37 ⇒ x( 3 ) ≤ Q1 ≤ x( 4 ) şi Q1 = ( 3) = = 36 sute lei. 2 2

x( 1) ≤ x( 2) ≤ x( 3) ≤ x( 4) ≤ x( 5) ≤ x( 6) ≤ x( 7) ≤ x( 8) ≤ x( 9) ≤ x( 10) ≤ x( 11) ≤ x( 12) ≤ x( 13)                               25%

↑ Q1

75%

36 •

interpretarea: 25% dintre unităţile statistice din eşantion au nivelul variabilei de interes mai mic sau egal cu Q1 , iar restul de 75% dintre unităţile statistice din eşantion au nivelul variabilei de interes cel puţin egal cu Q1 ; adică 25% dintre lucrările de grafică licitate s-au vândut pentru un preţ mai mic decât 36 sute lei, iar restul de 75% dintre ele s-au vândut cu un preţ mai mare de 36 sute lei.

o Q2=Me=54 sute lei este cuartila de ordinul 2 sau mediana seriei de date statistice. o Q3 – cuartila de ordinul 3 sau cuartila superioară se determină astfel: •

se stabileşte locul lui Q3 :

n+1 13 + 1 ⋅3 = ⋅ 3 = 10,50 ∉ N, dar 10 < 10,50 < 11 4 4

(locul lui Q1 cuartilei este între 10 şi 11, astfel că Q3 se va găsi între a 10-a şi a 11-a valoare din şirul ordonat crescător) x + x( 11) 61 + 63 ⇒ x(10 ) ≤ Q3 ≤ x(11) si Q3 = ( 10 ) = = 62 sute lei, 2 2

x( 1) ≤ x( 2) ≤ x( 3) ≤ x( 4) ≤ x( 5) ≤ x( 6) ≤ x( 7) ≤ x( 8) ≤ x( 9) ≤ x( 10) ≤ x( 11) ≤ x( 12) ≤ x( 13)                                75%

↑ Q3

25%

62 •

interpretarea: 75% dintre unităţile statistice din eşantion au nivelul variabilei de interes mai mic sau egal cu Q3 , iar restul de 25% dintre unităţile statistice din eşantion au nivelul

4

variabilei de interes cel puţin egal cu Q3 ; adică 75% dintre lucrările de grafică licitate sau vândut pentru un preţ mai mic decât 62 sute lei, iar restul de 25% dintre ele s-au vândut cu un preţ mai mare de 62 sute lei.

x( 1) ≤ x( 2) ≤ x( 3) ≤ x( 4) ≤ x( 5) ≤ x( 6) ≤ x( 7) ≤ x( 8) ≤ x( 9) ≤ x( 10) ≤ x( 11) ≤ x( 12) ≤ x( 13)                                25%

↑ Q1

36

50%

↑ Q3

25%

62

o

Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei. Abaterea intercuatilică (interquratile range) este AQ=Q3-Q1=26 sute lei. d) pentru o serie statistica simpla de date numerice, principalii indicatori ai tendintei centrale, variatiei si formei distributiei se pot calcula in Excel astfel: • datele statistice se introduc intr-o foaie de lucru a unui fisier Excel, asa cum se poate vedea in Figura nr. 1; • in Excel 2003, din meniul Tools se alege Data Analysis, iar apoi se selecteaza Descriptive Statistics asa cum se poate vedea in Figura nr. 1; • in Excel 2007 sau versiuni ulterioare, din meniul Data, se alege Data Analysis, iar apoi se selecteazaDescriptive Statistics, asa cum se poate vedea in Figura nr. 1;

5

Figura nr. 1. Introducerea datelor seriei simple intr-o foaie de lucru si selectarea optiunii Descriptive Statistics din Data Analysis. •

in urmatoarea fereastra care se va deschide, asa cum se poate observa in Figura nr. 2, se va completa:  la sectiunea Input Range se selecteaza cu mouse-ul sirul de celule care contin datele seriei statistice simple,  la sectiunea Output options se alege o celula din foaia de lucru unde vor aparea rezultatele prelucrarii datelor,  se bifeaza Summary Statistics,  se da click pe butonul OK;

6

Figura nr. 2. Fereastra Descriptive Statistics. •

Rezultatele sunt prezentate intr-un tabel de forma: Mean (media) Standard Error Median (mediana) Mode (modul) Standard Deviation (abaterea standard) Sample Variance (dispersia de selectie) Kurtosis (coeficientul de boltire sau aplatizare) Skewness (coeficientul de asimetrie) Range (Amplitudinea)

51,5385 = x 3,7632 54 = Me #N/A (nu exista) 13,5684 = s x

= s x2

184,1026 = s x2 -1,29426 = CBA -0,23938 = CAS 40

= Ax = xmax − xmin

Minimum (valoarea minima)

32 = xmin = x(1)

Maximum (valoarea maxima)

72 = xmax = x( n ) n

Sum (suma valorilor)

670 = ∑ xi i =1

Count (volumul esantionului)

13 =

n

7

e) asimetria unei serii de date statistice se poate analiza din mai multe puncte de vedere: o prin compararea indicatorilor tendintei centrale:  in cazul nostru, comparam doar media aritmetica si mediana, deoarece modul nu exista, astfel: x < Me , ceea ce indica o asimetrie negativa, in seria de date predominand valorile mai mari, adica intre lucrarile de grafica licitate sunt mai numeroase cele care au o valoare de vanzare mai mare; o prin calculul si evaluarea semnului urmatorului coeficient de asimetrie 3 ⋅ ( x − Me ) C as = = −0,5442 < 0 ce arata ca distributia prezinta asimetrie negativa; s n

o prin calculul coeficientului de asimetrie (Skewness), CAS =

∑( x i =1

i

− x)

n ⋅(s

)

3

, a carui valoare este data

3

in tabelul ce reprezinta output-ul prelucrarii datelor statistice in Excel  valoarea acestuia este CAS = −0,2393 , o valoare negativa si apropiata de 0, indicand ca distributia prezinta o asimetrie negativa destul de redusa; o prin aprecierea pozitiei medianei fata de cele doua cuartile:  Me −Q1 = 18 sute lei, Q3 − Me = 8 sute lei, deci Me − Q1 > Q3 − Me , adica Mediana este mai apropiata de cuartila superioara decat de cea inferioara, ceea ce arata ca seria prezinta asimetrie negativa. f) f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei: afirmatie falsa deoarece cuartila de ordinul intai este Q1 = 36 sute lei; f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei: afirmatie adevarata deoarece mediana este Me = 54 sute lei; f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei: afirmatie corecta deoarece curatila superioara este Q3 = 62 sute lei; f4) pentru 75% dintre obiecte s-a obţinut un pret de cel putin 36 sute lei; afirmatie adevarata deoarece cuartila inferioara este Q1 = 36 sute lei f5) precizati care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers în raport cu datele iniţiale: Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice dacă: x < Q1 −1,5 ⋅ AQ sau x > Q3 + 1,5 ⋅ AQ sau valoarea x este outlier pentru un set de date statistice daca se găseşte în afara intervalului [Q1 −1,5 ⋅ AQ ; Q3 +1,5 ⋅ AQ ] . În cazul nostru, [Q1 −1,5 ⋅ AQ ; Q3 +1,5 ⋅ AQ ] = [ − 3;101] , deci numai valoarea 124 este outlier în raport cu setul iniţial de date statistice; f6) coeficientul de variaţie este 26,33%: afirmatie adevarata; f7) media este reprezentativă pentru colectivitate: afirmatie adevarata deoarece coeficientul de variatie este mai mic de 35%.

8

Pb. 2. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti, la momentul castigarii premiului: 50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42, 37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani. Se cere: a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei serii de date; b) sa se arate daca seria are valori extreme; c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena; d) analizati asimetria; e) Descriptive Statistics. Rezolvare: a) o Populatia statistica este multimea actritelor care au castigat premiul Oscar. o Unitatea statistica este o actrita. o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la momentul obtinerii premiului; variabila numerica, discreta. o Pentru un esantion de volum n = 39 de actrite se cunosc valorile variabilei X, adica {x1=50, x2=44, x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau nesistematizata de date statistice numerice. n

xi . x1 + x2 + ... + xn ∑ i =1 x= = n n In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar este

o Media unei serii simple de date numerice { x1 , x2 , ..., xn } este

39

xi x1 + x2 + ... + x39 ∑ ani. 1486 i =1 x= = = = 38,1025 39 39 39 o Pentru a determina mediana, vom proceda astfel: - seria simpla de date se ordoneaza crescator x(1) ≤ x( 2 ) ≤ ... ≤ x( n ) , unde x( i ) , i =1, n este elementul cu rangul i din seria ordonata crescator, -

locul medianei este

n +1 = 20 ∈ N ⇒ Me = x( 20 ) = 34 ani. 2

Jumatate dintre actritele din selectie au obtunut premiul Oscar la o varsta de cel mult 34 de ani (jumatate dintre actritele din esantion au castigat premiul Oscar la o varsta de peste 34 de ani). o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani, care apar pentru 4 actrite fiecare. Nr. crt.

Varsta actritelor xi

Varsta actritelor, in ordine crescatoare x( i )

1

x1=50 x2=44 x3=35 x4=80 x5=26

x(1)=21 x(2)=24 x(3)=25 x(4)=26 x(5)=26

28 41

26 26

8 9 10

21 61 38

27 28

x(10)=30=Q1

11 12 13 14

49 33 74 30

30 31 31 33

2 3 4 5 6 7

9

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

33 41 31 35 41 42 37 26 34 34 35 26 61 60 34 24

31 32 33 34

30 37 31 27

35

39

36

34

37

26

38

25

39

x39=33

o Pentru determinarea cuartilelor procedam astfel: -

locul cuartilei de ordinul 1, Q1, este

33 33 34 34 34

x(20)=34=Me 35 35 35 37 37 38 39 41 41

x(30)=41=Q3 42 44 49

x(34)=50 x(35)=60 x(36)=61 x(37)=61 x(38)=74 x(39)=80

n +1 ⋅1 = 10 ∈ N ⇒ Q1 = x( 10 ) = 30 ani; un sfert dintre 4

actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 30 de ani, iar restul la cel putin 30 de ani; -

locul cuartilei de ordinul 3, Q3, este

n +1 ⋅ 3 = 30 ∈ N ⇒ Q3 = x( 30 ) = 41 ani; trei sferturi 4

dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 41 de ani, iar restul la cel putin 41 de ani. o Abaterea intercuartilica este AQ = Q3 − Q1 = 11 ani si arata lungimea intervalului in care se gasesc jumatate dintre valorile din mijlocul seriei de date. -

b) o o

Q1 −1,5 ⋅ IQR =13,5 Q3 +1,5 ⋅ IQR = 57,5

Valoarea x este outlier pentru seria de date statistice numerice daca x se gaseste in afara intervalului [Q1 −1,5 ⋅ AQ ; Q3 +1,5 ⋅ AQ ] = [13,5; 57,5] , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers.

c) Dispersia de selectie (sample variance) pentru o serie simpla de date numerice asupra variabilei X este

10

n

s2 = 39

adica

s2 =

∑( x i =1

i

− x)

39 − 1

( x1 − x )

2

+ ... + ( xn − x ) = n −1 2

∑(x i =1

i

− x)

2

,

n −1

2

=

, 6791,5897 = 178,7260 39 − 1

abaterea standard (standard deviation) este Coeficientul de variatie este v =

s x

s =

s 2 =13,3688

ani.

⋅100 = 35,09% > 35% , ceea ce indica faptul ca seria de date este

mai putin omogena, iar media este mai putin reprezentativa pentru colectivitate, ca indicator al tendintei centrale. Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Varsta actritelor

xi

x1=50 x2=44 x3=35 x4=80 x5=26

xi − x

( xi − x ) 2

11,8974

141,5489

5,8974

34,7797

-3,1026

9,6259

41,8974

1755,3951

28 41 21 61 38 49 33 74 30 33 41 31 35 41 42 37 26 34 34 35 26 61 60 34 24 30 37 31 27 39 34 26 25

-12,1026 -10,1026 2,8974 -17,1026 22,8974 -0,1026 10,8974 -5,1025 35,8974 -8,1025 -5,1025 2,8974 -7,1025 -3,1025 2,8974 3,8974 -1,1025 -12,1025 -4,1025 -4,1025 -3,1025 -12,1025 22,8974 21,8974 -4,10256 -14,1025 -8,1025 -1,1025 -7,1025 -11,1025 0,8974 -4,1025 -12,1025 -13,1025

146,4720 102,0618 8,3951 292,4977 524,2925 0,0105 118,7541 26,0361 1288,6259 65,6515 26,0361 8,3951 50,4464 9,6259 8,3951 15,1900 1,2156 146,4720 16,8310 16,8310 9,6259 146,4720 524,2925 479,4977 16,8310 198,8823 65,6515 1,2156 50,4464 123,2669 0,8053 16,8310 146,4720 171,6771

x39=33

-5,1025

26,0361

11

39

39

∑x i =1

i

= 1486

∑ ( xi − x ) = i =1

39

∑( x i =1

− x ) = 6791,589 2

i

0

x = 38,1025

7 s 2 =178,7260 s =

s 2 =13,3688

v =35,09%

d)

Asimetria unei serii de distribuţie de frecvenţe se poate stabili: - prin compararea indicatorilor tendintei centrale, - prin analiza distantei intre mediana si cele doua cuartile inferioara si superioara, - prin calculul si interpretarea valorii unui indicator specific, coeficientul de asimetrie, - se observă din reprezentarea grafică prin histogramă sau poligonul frecvenţelor. - Cum Me = 34 < 38,1025 = x , atunci concluzionam ca seria de date prezinta asimetrie pozitiva. - Cum mediana este mai apropiata de Q1 decat de Q2, adica Me − Q1 < Q3 − Me , atunci concluzionam ca seria prezinta asimetrie pozitiva, in seria de date predominand valorile mici. n

- Indicatorul asimetriei este coeficientul de asimetrie (Skewness) CAS =

∑( x i =1

i

− x)

n ⋅ (s

)

3

, al carui semn si

3

marime arata tipul asimetriei (pozitiva sau negativa), iar marimea arata gradul mai putin accentuat sau mai accentuat al asimetriei seriei de date sau al distributiei. In cazul acestei serii de date, CAS =1,5734 , o valoare pozitiva si mai mare ca 1, ceea ce arata ca seria de date prezinta o asimetrie pozitiva pronuntata. - Sistematizarea printr-o serie de distributie de frecvente pe r = 6 intervale de variatie de marime egala a dat urmatoarea distributie a celor n=39 de actrite din esantion dupa varsta la momentul obtinerii premiului Oscar: Nr. crt. 1 2 3 4 5 6

Intervalul i de variatie (clasa de varsta)

Frecventa absoluta ni a intervalului i de variatie (numarul de actrite din fiecare clasa de varsta)

20-30 ani 30-40 ani 40-50 ani 50-60 ani 60-70 ani 70-80 ani

11 16 7 1 2 2 6

∑n i =1

i

Centrul xi al intervalului i de variatie 25 35 45 55 65 75

= 39=n

Reprezentarea grafica seriei de distributie de frecvente pe intervale, adica histograma si poligonul frecventelor sugereaza ca aceasta prezinta asimetrie pronuntata la dreapta sau asimetrie pozitiva, adica predomina valorile mai mici ale variabilei de interes, cu coada mai lungă a distribuţiei spre valorile mari, care apar cu frecventa mai mica. Intre cele 39 de actrite castigatoare ale premiului Oscar, predomina cele cu varste relativ mai mici.

12

Histograma - distributia celor n=39 de actrite dupa variabila ce arata varsta la momentul castigarii premiului Oscar

Poligonul frecventelor pentru seria de distributie de frecvente

16

16

16 14 12

16

14 Numarul de actrite

Frecventa absoluta (numarul de actrite)

18

18

11

10 7

8 6 4

1

2

2

2

12 11 10 8 7 6 4 2

2

2

1

0

0

20-30 ani

30-40 ani

40-50 ani

50-60 ani

60-70 ani

70-80 ani

0

10

20

30

40

50

60

70

80

Varsta, in ani (centrele intervalelor)

Varsta (intervalele sau clasele de varsta)

e) Indicatorii tendintei centrale, principalii indicatori ai variatiei si ai formei distributiei pentru o serie simpla de date numerice pot fi calculati in Excel si in SPSS, output-urile fiind de forma: Output-ul Descriptive Statistics in Excel

Output-ul Descriptive Statistics in SPSS

13

Varsta actritelor

Statistics

Mean (media)

x = 38.1025

Standard Error Median Mode Standard Deviation (abaterea standard) Sample Variance (dispersia de selectie) Kurtosis Skewness (coeficientul de asimetrie) Range (Amplitudinea)

2.1407 Me=34 Mo=26

Varsta actritelor Oscar N

Valid

39

Missing

0

s x = s x2 = 13.3688

Mean

x = 38.10

s x2 = 178.7260

Std. Error of Mean

2.141

2.3830

Median

Me=34.00

CAS = 1.5734

Mode

Mo=26a

Ax = xmax − xmin = 59

Std. Deviation

s x = s x2 = 13.369

Minimum

x min = 21

s x2 = 178.726

Maximum

x max =80

Variance Skewness

CAS = 1.573

Std. Error of Skewness

.378

Kurtosis

2.383

Std. Error of Kurtosis

.741

Range

Ax = xmax − xmin = 5

39

Sum

∑x i =1

Count

i

= 1486

n=39

9 Minimum

x min = 21

Maximum

x max =80 39

∑x

Sum

i =1

Percentiles

i

= 1486

25

Q1 =30.00

50

Q2 = Me = 34.00

75

Q3 =41.00

a. Multiple modes exist. The smallest value is shown

Observatie: Analiza boltirii/aplatizării Boltirea(kurtosis, în engl.) exprimă înălţimea curbei („cocoaşei”) comparativ cu distribuţia normală teoretică. Întâlnim, astfel distribuţii leptocurtice, ascuţite (cu „cocoaşa” înaltă) şi distribuţii platicurtice, aplatizate. Coeficientul de boltire sau aplatizare (kurtosis) este o măsură a împrăştierii fiecărei observaţii în jurul unei valori centrale şi se determină, pe eşantion, cu formula: n

CBA =



∑( x i =1

i

− x)

( )

n ⋅ s2

2

n

4

− 3 , unde

s2 =

∑(x i =1

i

− x)

2

.

n −1

Interpretarea valorii coeficientului de aplatizare si boltire: Dacă CBA > 0 , avem distribuţie leptocurtică, valorile varibilei fiind mai concentrate în jurul indicatorilor tendinţei centrale decat in distributia normala.

14

• •

Dacă CBA < 0 , avem distribuţie platicurtica, valorile varibilei fiind mai dispersate în raport cu indicatorii tendinţei centrale decat in distributia normala. Dacă CBA = 0 , avem distribuţie mezocurtică, adică distribuţia normală.

In cazul acestei serii de date statistice, CAB = 2,383 > 0 , ceea ce indica o distributie leptocurtica (cu cocoasa, asa cum se poate vedea si din histograma sau poligonul frecventelor). Pb. 3. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna iulie a incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur, 6 contracte cu prime de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu prime anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere: a) Construiţi seria de distribuţie de frecvenţe şi analizaţi grafic tendinţa de normalitate a acesteia. b) Caracterizaţi omogenitatea şi asimetria distribuţiei contractelor în funcţie de valoarea primelor anuale. c) Calculati media si abaterea standard a variabilei alternative care evidentiaza contractele cu prime anuale de valoare mai mica sau egala cu 90 Eur. Rezolvare: a) o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul companiei W. o Unitatea statistica este un contract de asigurare de locuinta. o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei primei anuale, in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al companiei; variabila numerica, continua. o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale ale acestor contracte fiind sistematizata intr-o serie de distributie de frecvente pe r=7 variante distincte. Astfel distributia celor n=50 de contracte dupa valoarea primei anuale, in Eur, este: Valoarea xi Eur a unei prime anuale x1 =50 Eur

Nr. crt. 1

Numarul de contracte, ni , (frecventa absoluta) n1 =2 contracte

2

x2 = 60 Eur

n2 = 3

3

x3 =70 Eur

n3 =6

4

x4 = 90 Eur

n4 = 9

5

x5 =120 Eur

n5 =16

6

x6 =130 Eur

n6 =8

7

x7 =140 Eur

n7 = 6 7

∑n i =1

 x = 50 Eur X :  1  n1 = 2 contracte

sau 7

unde

∑n i =1

i

x2 = 60 n2 = 3

x3 = 70 n3 = 6

x4 = 90 n4 = 9

i

= 50 = n contracte

x5 = 120 n5 = 16

x6 = 130 n6 = 8

x7 = 120  , n7 = 6 

= 50 = n contracte.

o Reprezentarea grafica a acestei serii de distributie este poligonul frecventelor absolute.

15

Poligonul frecventelor absolute - distributia celor 50 de contracte incheiate de agentul de asigurari dupa valoarea primei anuale

Frecventa absoluta (numarul de contracte)

18 16 14 12 10 8 6 4 2 0 0

10

20

30

40

50

60

70

80

90

100

110

120

130

140

150

Prima anuala de asigurare a unui contract, in Eur

o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta asimetrie la stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga. o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative Valoarea xi Eur a unei prime anuale

Nr. crt.

Numarul de contracte, ni , (frecventa absoluta)

Frecventa relativa

x1 =50 Eur

n1 =2 contracte

n1* = 0,04

x2 = 60 Eur x3 =70 Eur

n2 = 3 n3 =6

n2* = 0,06 n3* =0,12

5

x4 = 90 Eur x5 =120 Eur

n4 = 9 n5 =16

n4* = 0,18 n5* =0,32

6

x6 =130 Eur

n6 =8

n6* =0,16

7

x7 =140 Eur

n7 = 6

n7* = 0,12

1 2 3 4

7

∑n i =1

i

= 50 = n

7

contracte

∑n i =1

* i

ni* =

ni ∈ [ 0,1] n

=1

16

Poligonul frecventelor relative 0,35 0,3

Frecventa relativa

0,25 0,2 0,15 0,1 0,05 0 0

10

20

30

40

50

60

70

80

90

100 110 120 130 140 150

Prima anuala, in Eur, pentru un contract de asigurare

b) o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de interes este r

x=

∑ x ⋅n i

i =1

i

r

∑n i =1

,

i

unde {xi , i =1, r } sunt variantele distincte observate ale variabilei, iar

r

∑n i =1

i

= n volumul

esantionului. 7

In cazul nostru,

∑x ⋅n i

i

Eur este valoarea medie a unei prime anuala 5310 = 106,2 50 50 corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de vanzari.

x=

i =1

=

o Mediana pentru o serie de distributie de frecvente pe r variante distincte se calculeaza parcurgand urmatorii pasi: • Cele r variante distincte sunt ordonate crescator x1 < x2 < ... < xr . n +1 = 25,5 . 2



Se determina locul medianei, adica



Se calculeaza frecventele absolute cumulate crescator ale celor r variante distincte Fck = n1 +... + nk , k =1, r . Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta cumulata crescator este prima care depaseste locul medianei



Fc1 = 2 < 25,5

Fc 2 = 5 < 25,5 Fc 3 =11 < 25,5 Fc 4 = 20 < 25,5 si Fc 5 = 36 ≥ 25,5 , deci a 5-a varianta sau valoare distincta, x5 , este mediana sau valoarea mediana: Me = x5 =120 Eur, adica jumatate dintre contractele incheiat de

agentul de vanzari au o prima anuala de valoare mai cica sau egala cu 120 Eur. 17

Nr. crt.

Valoarea distincta, xi Eur

ni ,

x i ⋅ ni

(frecventa absoluta)

( xi − x ) 2 ⋅ ni

Fck = n1 +... + nk

( x2 − x ) 2 ⋅ n1 = 6316,88 ( x2 − x ) 2 ⋅ n2 = 6403,32

1

x1 =50

n1 =2

x1 ⋅ n1 = 100

Fc1 = n1 =2

2

x2 = 60

n2 = 3

x2 ⋅ n2 = 180

Fc 2 = n1 + n2 = 5

3

x3 =70

n3 =6

420

4

x4 = 90

n4 = 9

810

Fc 3 = n1 + n2 + n3 = 11 Fc 4 = n1 + ... + n4 = 20

5

x5 =120

n5 =16

1920

Fc 5 = n1 +... + n5 = 36

3047,04

6

x6 =130

n6 =8

1040

Fc 6 = n1 + ... + n6 = 44

4531,52

7

x7 =140

7862,64 2361,96

Fc 7 = n1 + ... + n7 = n = 5

n7 = 6

840

7

0

7

∑ ni = 50 = n

7

∑(x

∑ xi ⋅ ni = 5310 i =1

i =1

x

( x7 − x ) 2 ⋅ n7 = 6854,64 i

i =1

= 106,2

− x ) ⋅ ni = 37378 2

s 2 =762,8163265 s =

s 2 =27,61912972

v =26,01%

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante distincte este acea varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare: • Frecventa absoluta cea mai mare este: 16 = n5 = max{ni , i =1, r } . • valoarea modala este deci a 5-a varianta sau valoare distincta de raspuns a variabilei de interes, Mo = x5 =120 Eur, aceasta fiind valoarea cea mai des intalnita a unei prime anuale pentru contractele incheiate de respectivul agent. o

Relatia in care se gasesc indicatorii tendintei centrale, x < Me = Mo , ca si reprezentatrea grafica pentru poligonul frecventelor absolute sau relative, arata ca distributia contractelor dupa valoarea primelor anuale prezinta asimetrie negativa, in serie predominand valorile mai mari ale primelor anuale, iar coada distributiei este alungita spre stanga.

o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este r

s

2

( x − x) = 1

⋅ n1 + ... + ( xr − x ) ⋅ nr = ( n1 + ... + nr ) − 1

2

2

∑ ( x − x) i =1

In cazul nostru,

∑( x

− x ) ⋅ ni

⋅ ni

,

n−1

unde {xi , i =1, r } sunt variantele distincte observate ale variabilei, 7

2

i

r

∑n i =1

i

= n volumul esantionului.

2

i

, iar abaterea standard sau abaterea medie 37378 = 762,8163 50 − 1 50 − 1 s = s = 27 , 6191 patratica este Eur, care arata cu cat se abat, in medie, valorile observate fata de nivelul mediu in esantion al primelor anuale.

s2 =

i =1

=

2

o Coeficientul de variatie in esantion este v =

s x

⋅100 =

27,6191 ⋅100 = 26,01% < 30% , 106,2

ceea ce arata ca

distributia este omogena si media este reprezentativa pentru colectivitate.

18

c) Definim “evenimentul favorabil” ca evenimentul ca un contract de asigurare are o prima anuala de valoare mai mica sau egala cu 90 Eur. Variabila alternativa care evidentiaza contractele ale caror prime 

anuale sunt de valoare mai mica sau egala cu 90 Eur este Y : 

0

n − m

unde

iar

1 , m 

Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion care verifica evenimentul favorabil, m = n1 + n2 + n3 + n4 = 20 contracte, Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n − m este numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil, n − m = 30 de contracte cu prime anuale mai mari de 90 Eur. Media variabilei alternative este f =

m 20 = = 0,4 , adica 40% dintre contracte au valori ale n 50

primelor anuale mai mici sau egale cu 90 Eur. 2 Dispersia variabilei alternative este salt = f ⋅ (1 − f ) =

salt =

m  m ⋅ 1 −  = 0,24 , iar abaterea standard n  n

m  m ⋅ 1 −  ≅ 0,48 n  n

Pb. 4. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $, in primul an dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe intervale de variatie: Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi 1 2 3 4 5 6 7 8 9 10 11

[7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500]

30 69 302 308 263 95 20 6 5 1 1

Se cere: a) sa se reprezinte grafic aceasta serie de distributie; b) sa se determine si sa se interpreteze indicatorii tendintei centrale; c) sa se stabileasca daca media este reprezentativa pentru colectivitate; d) sa se analizeze asimetria acestei distributii. Rezolvare: a)  Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor 1989 si 1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav al programului SPSS.  Unitatea statistica este un absolvent.  Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui absolvent, in $, din primul an de dupa finalizarea studiilor, variabila numerica, continua.  Pentru un esantion de volum n = 1100 de absolventi s-au inregistrat valorile variabilei, iar setul de date s-a sistematizat intr-o serie de distributie de frecvente pe r = 11 intervale de variatie de marime egala, data in enuntul problemei.  Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se poate realiza prin histograma si poligonul frecventelor absolute.

19

Nr. crt.

Intervalul i de variatie (Salariul anual al unui absolvent, in $)

1 2 3 4 5 6 7 8 9 10 11

[7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500]

Frecventa absoluta ni a intervalului i (numarul de absolventi)

Limita inferioara

Limita superioara

x( i ) inf

x( i ) sup

a intervalului i

a intervalului i

7200 12500 17800 23100 28400 33700 39000 44300 49600 54900 60200

12500 17800 23100 28400 33700 39000 44300 49600 54900 60200 65500

30 69 302 308 263 95 20 6 5 1 1 11

∑n

9850 15150 20450 25750 31050 36350 41650 46950 52250 57550 62850

= n = 1100

i

i =1

Centrul xi al intervalului i

Histograma

Frecventa absoluta (numarul de absolventi)

350 308

302

300 263

250 200 150 95

100

69

50

30

20

6

5

1

1

00 65 5

0; 02 0 (6

49 0 (5

]

] 00 60 2

00 0;

54 9 0;

96 0 (4

43 0 (4

]

] 00 49 6

00 0;

44 3 0;

90 0 (3

37 0 (3

]

] 00 39 0

00 0;

33 7 0;

84 0 (2

31 0 (2

]

] 00

] 0;

23 1 0;

78 0 (1

28 4

00

00 17 8

0; 25 0 (1

[7 2

00 ;

12

50 0

]

]

0

Salariul, in $ (intervalele de variatie)

Fig. ..... Histograma – Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.

20

Poligonul frecventelor absolute

Frecventa absoluta (numarul de absolventi)

350 302

300

308

263

250 200 150 100

95 69

50

20

30

6

5

1

0 0

10000

20000

30000

40000

50000

1

60000

70000

Salariul, in $ (centrele intervalelor de variatie)

Fig. ..... Poligonul frecventelor absolute – Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul castigat in primul an de dupa finalizarea studiilor. b) Indicatorii tendintei centrale: media, mediana si modul. Nr. crt.

Intervalul i (Salariul anual al unui absolvent, in $)

1 2 3 4 5 6 7 8 9 10 11

[7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500]

Centrul

xi

Frecventa absoluta ni (numarul de absolventi)

9850 15150 20450 25750 31050 36350 41650 46950 52250 57550 62850

xi ⋅ ni

Frecventa absoluta cumulata crescator a intervalului k,

Fck = n1 + ... + nk

30 69 302 308 263 95 20 6 5 1 1 11

∑ni = n = 1100 i =1

295500 1045350 6175900 7931000 8166150 3453250 833000 281700 261250 57550 62850 11

∑x i =1

i

30 99 401 709 972 1067 1087 1093 1098 1099 1100

⋅ ni = 28563500

x = 25966,82

o Media pentru o serie de distributie de frecvente pe r intervale de variatie este r

x ⋅ n + ... + xr ⋅ nr x= 1 1 = n1 + ... + nr unde {xi , i =1, r } sunt centrele celor r intervale, iar

r

∑n i =1

i

∑ x ⋅n i =1

i

i

,

n = n volumul esantionului.

21

11

⇒x=

∑ x ⋅n i =1

i

i

1100

=

$ a castigat, in medie, un absolvent in primul an. 28563500 = 25966,82 1100

o Mediana pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza parcurgand urmatorii pasi: n +1 = 550,5 . 2



Se determina locul medianei, adica



Se calculeaza frecventele absolute cumulate crescator ale intervalelor de variatie Fck = n1 +... + nk , k =1, r . Intervalul median este primul interval cu proprietatea ca frecventa sa absoluta cumulata crescator depaseste locul medianei



Fc1 = 30 < 550,5

Fc 2 = 99 < 550,5 Fc 3 = 401 < 550,5 si Fc 4 = 709 ≥ 550,5 , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul

median. •

n +1 − Fc Me−1 2 Me = xinf Me + hMe ⋅ = nMe 550,5 − 401 = 23100 + 5300 ⋅ = 25672,56 $, adica jumatate dintre absolventi au 308 castigat cel mult 25672,56$ in primul an sau jumatate au castigat cel putin 25672,56 $.

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza astfel: • Se determina intervalul cu frecventa absoluta cea mai mare: 308 = n4 = max{ni , i =1, r } , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal. ∆1 Mo = xinf Mo + hMo ⋅ = • ∆1 + ∆ 2 = 23100 + 5300 ⋅

308 − 302 = 23723,52 $, aceasta este valoarea cea mai ( 308 − 302 ) + ( 308 − 263)

des intalnita a castigului salarial al unui absolvent intr-un an. c) Media variabilei de interes in esantion este x = 25966,82 $. Nr. crt.

Intervalul i (Salariul anual al unui absolvent, in $)

1 2 3 4 5 6 7 8 9 10

[7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200]

Centrul

xi 9850 15150 20450 25750 31050 36350 41650 46950 52250 57550

Frecventa absoluta ni (numarul de absolventi)

30 69 302 308 263 95 20 6 5 1

( xi − x ) 2 ⋅ ni

( x1 − x ) 2 ⋅ n1 = 7792556607 8073248049 9191461480 14479361,02 6795583074 10241990557 4919242698 2641763057 3454027755 997497258,9

22

11

(60200; 65500]

62850

1 11

∑n

i

i =1

1360368967 11

∑( x

= n = 1100

i =1

− x ) ⋅ ni = 55482218864 2

i

s 2 =50484275,58 s =7105,2287

Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este r

s

( x − x) = 1

2

⋅ n1 + ... + ( xr − x ) ⋅ nr = ( n1 + ... + nr ) − 1

2

2

unde {xi , i =1, r } sunt centrele celor r intervale, 11

∑(x

− x ) ⋅ ni

r

∑n

i

i =1

∑ ( x − x) i =1

i

2

⋅ ni

,

n−1

= n volumul esantionului.

2

i

, iar abaterea standard este s =7105,2287 $, care 55482218864 = 50484275,58 1100 − 1 1100 − 1 arata cu cat se abat, in medie, valorile observate fata de nivelul mediu al salariului din esantion.

⇒ s2 =

i =1

=

Coeficientul de variatie in esantion este v =

s x

7105,2287 ⋅100 = 27,36% < 30% , 25966,82

⋅100 =

ceea ce arata

ca media este reprezentativa pentru colectivitate. d) Asimetria unei serii de distribuţie de frecvenţe se observă din reprezentarea grafică prin histogramă sau poligonul frecvenţelor, si prin modalitatea în care sunt situaţi, unul faţă de celălalt, indicatorii tendinţei centrale. Histograma

Poligonul frecventelor absolute 308

302

350

300 263

Frecventa absoluta (numarul de absolventi)

Frecventa absoluta (numarul de absolventi)

350

250 200 150 95

100

69

50

30

20

6

5

1

1

200 150 100

95 69

50

20

]

30

65 5

00

]

308

263

250

6

5

1

02 0

0;

0 0

(6

(5

49 0

0;

60 2

00 54 9

0;

00

]

]

]

00 49 6

00 43 0

0;

44 3 0; (4

90 0 (3

(4 96 0

]

] 39 0

00 (3

37 0

0;

33 7 0;

00

]

]

00

0;

28 4 (2 84 0

00 31 0 (2

(1

78 0

0;

23 1

00 17 8

0; 25 0 (1

[7 2

00 ;

12

50 0

]

]

0

302

300

10000

20000

30000

40000

50000

1

60000

70000

Salariul, in $ (centrele intervalelor de variatie)

Salariul, in $ (intervalele de variatie)

Reprezentarea grafica seriei de distributie sugereaza ca aceasta are tendinta de normalitate si ca in seria de date predomina valorile mai mici ale variabilei de interes, castigul salarial intr-un an, adica este asimetrica spre dreapta (cu coada mai lungă a distribuţiei spre valorile mari, care apar cu frecventa mai mica). Indicatorii tendintei centrale se gasesc in urmatoarea relatie Mo < Me < x , ceea ce indica faptul ca distributia de frecvente prezinta asimetrie pozitiva, in serie predominand valorile mici. Gradul de asimetrie prezent în serie poate să fie şi măsurat printr-un indicator specific, numit coeficient de asimetrie (Skewness), care in cazul unei serii de distributii de frecvente pe r intervale de variatie se calculeaza dupa r

CAS =

∑(x i =1

i

− x ) ⋅ ni

n ⋅ (s

3

)

,

3

23

unde {xi , i =1, r } sunt centrele celor r intervale, Nr. crt.

Intervalul i (Salariul anual al unui absolvent, in $)

Centrul

1 2 3 4 5 6 7 8 9 10 11

[7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500]

9850 15150 20450 25750 31050 36350 41650 46950 52250 57550 62850

xi

r

∑n i =1

i

= n volumul esantionului.

Frecventa absoluta ni (numarul de absolventi)

( xi − x ) 3 ⋅ ni

30 69 302 308 263 95 20 6 5 1 1 11

∑ni = n = 1100 i =1

-1,25591E+14 -8,73269E+13 -5,07076E+13 -3139415056 3,45432E+13 1,06344E+14 7,71494E+13 5,54326E+13 9,07828E+13 3,15041E+13 5,01747E+13 11

∑( x i =1

− x ) ⋅ ni = 1,82302E+14 3

i

CAS = 0,462

Cum 0 < CAS < 1 , avem asimetrie pozitivă, coada distribuţiei este mai alungită la dreapta, în serie predominând valorile mici (modul < mediana < media). Pb. 5. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de intarziere a rambursarii creditelor. Datele au fost sistematizate astfel: Intervale de variatie a numarului de zile de intarziere a platii mai putin 25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile peste 65 de zile

Ponderea cumulata a debitorilor (%) 25 75 85 93 98 100

Se cere: a) sa se scrie distributia de frecvente pe intervale de variatie; b) sa se reprezinte grafic distributia de frecvente absolute; c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca durata medie de intarziere a platilor este reprezentativa; d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de zile cu efectuarea platilor. Rezolvare: a) o Populatia statistica – mutimea debitorilor cu intarziere in efectuarea platilor pentru rambursarea unor credite. o Unitatea statistica – un debitor. o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de intarziere a efectuarii platii catre banca de catre un deitor; variabila numerica, discreta. o S-a realizat o selectie de volum n = 500 de debitori restantieri pentru care s-a inregistrat numarul de zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie de frecvente pe r = 6 intervale de variatie de marime egala. Notam cu:

24

• • • • • •

ni , i =1, r

, frecventa absoluta a intervalului i de variatie (numarul de debitori restantiei pentru care numarul de zile de intarziere apartine intervalului i de variatie), n1 + ... + nr = n ; n ni* = i ∈[ 0;1], i = 1, r , frecventa relativa a intervalului i de variatie, n1* + ... + nr* = 1 ; n n ni* % = 100 ⋅ i , i = 1, r , frecventa relativa exprimata procentual a intervalului i de variatie sau n ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa i, n1* % + ... + nr* % = 100% ; Fck = n1 +... +nk , k =1, r , este frecventa absoluta cumulata crescator a intervalului k; Fck* = n1* +... + nk* , k =1, r , este frecventa relativa cumulata crescator a intervalului k; Fck* % = n1* % + ... + nk* %, k = 1, r , este frecventa relativa exprimata procentual cumulata crescator a intervalului k (ponderea cumulata a intervalului k).

Intervalul i de variatie a numarului de zile de intarziere a platii 15-25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile 65-75 de zile

Nr. crt. 1 2 3 4 5 6

Ponderea cumulata a debitorilor (%)

Ponderea intervalului i,

F % = n % + ... + n % * ck

* 1

* k

* i

n%

Frecventa absoluta,

Frecventa relativa, n* % ni* = i 100

ni = n ⋅ ni* = = 500 ⋅ ni*

n1* % = 25%

n1* =0,25

n1 = 125

Fc*2 % = n1* % + n2* % = 75%

n2* % = 50%

n2* = 0,50

n2 = 250

F % = n % + ... + n % = 85%

n % = 10%

n =0,10

n3 = 50

F % = n % + ... + n % = 93%

n % = 8%

n = 0,08

n4 = 40

F % = n % + ... + n % = 98%

n % = 5%

n =0,05

Fc*6 % = n1* % + ... + n6* % = 100%

n6* % = 2%

n6* =0,02

n5 = 25 n6 =10

Fck* % = n1* % = 25% * c3

* c4

* c5

* 1

* 1 * 1

* 3

* 4

* 5

* 3

* 4

* 5

6

∑ ni* % = 100% i =1

* 3

* 4

* 5

6

∑ ni* = 1 i =1

6

∑n i =1

i

= 500 = n

Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este urmatoarea serie de distributie de frecvente pe intervale: Nr. crt.

Intervalul i de variatie a numarului de zile de intarziere a platii

1 2 3 4 5 6

15-25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile 65-75 de zile

Numarul de debitori (frecventa absoluta), ni

n3 = 50

Centrul xi al intervalului i de variatie x1 = 20 x2 = 30 x3 = 40

n4 = 40

x 4 = 50

n5 = 25

x5 =60

n6 =10

x6 =70

n1 = 125 debitori n2 = 250

6

∑n i =1

i

= 500 = n debitori

b)

25

Poligonul frecventelor absolute

Histograma 300

300 250

Numarul de debitori

250

250

150

Numarul de debitori

200

125

100 50

40

50

200 150 100 50

25 10

0 15-25 de zile

25-35 de zile

35-45 de zile

45-55 de zile

55-65 de zile

0

65-75 de zile

0

10

20

30

40

50

60

70

80

Numarul zilelor de intarziere

Numarul de zile de intarziere

Fig. ..... Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii

Fig. .... Poligonul frecventelor absolute pentru distributia celor 500 de debitori dupa numarul de zile de intarziere a platilor

c) Nr. crt.

Intervalul i

1

15-25 de zile

2

25-35 de zile

3

Numarul de debitori, ni

n1 = 125 n2 = 250

45-55 de zile

5

55-65 de zile

6

x1 = 20

n4 = 40 n5 = 25

x4 =50 x5 =60

65-75 de zile

5

1440

2000

5

2888

2000

465

12390,4

490

19044

Fc 6 =50

( x6 − x ) 2 ⋅ n6 = 14137,6

1500

x6 ⋅ n6 = 700

∑ xi ⋅ ni = 16200 i =1

i =1

( x1 − x ) 2 ⋅ n1 = 19220

5

Fc 3 =42

6

∑ ni = 500 = n

Fc1 =12 Fc 2 =37

7500

x6 =70

6

( xi − x ) 2 ⋅ ni

Fck

x1 ⋅ n1 = 2500

x2 = 30 x3 = 40

n6 =10

xi ⋅ ni

xi

n3 = 50 35-45 de zile

4

Centrul

x = 32,4

0 6

∑(x i =1

i

− x ) ⋅ ni = =69120 2

s 2 =138,5170 s =

s 2 =11,7693

v =36,33% 6

xi ⋅ ni x1 ⋅ n1 + ... + xr ⋅ n6 ∑ 16200 , deci x =32,4 zile este numarul mediu de zile i =1 x= = = n1 + ... + n6 n 500 de intarziere a platilor pentru un debitor restantier.

o Media este

n +1 n +1 = 250,5 ; primul interval cu proprietatea ca Fck ≥ este intervalul 252 2 35 de zile, deoarece Fc1 =125 < 250,5 , dar Fc 2 = 375 ≥ 250,5 , deci: n +1 − Fc Me−1 2 Me = xinf Me + hMe ⋅ = nMe

o Locul medianei este

26

250,5 −125 = 30,02 zile, adica jumatate dintre debitorii restantieri au intarziat 250

= 25 +10 ⋅

cel putin 30 de zile cu efectuarea platilor. o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai mare 250 = n2 = max{ni , i =1,6} , atunci Mo = xinf Mo + hMo ⋅ = 25 +10 ⋅

∆1 = ∆1 + ∆ 2

250 −125 = 28,84 zile; numarul cel mai intalnit de zile de ( 250 −125) + ( 250 − 50 )

intarziere a platilor celor 500 de debitori restantieri este de aproximativ 29 de zile. o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este Mo < Me < x , ceea ce indica o asimetrie pozitiva. 6

∑ ( x − x)

2

⋅ ni ⋅ n1 + ... + ( x6 − x ) ⋅ n6 i =1 69120 , deci s = = ( n1 + ... + n6 ) − 1 500 − 1 500 − 1 2 s =138,5170 , iar abaterea standard s = s =11,7693 zile, care arata cu cate zile se abat, in medie, valorile observate ale seriei de date fata de numarul mediu de zile de intarziere.

o Dispersia in esantion este

2

( x − x) = 1

2

2

i

2

o Coeficientul de variatie in esantion este v =

s x

⋅100 =

11,7693 ⋅100 = 36,33% > 35% , 32,4

ceea ce arata ca

distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este reprezentativa pentru colectivitate. d) Definim “evenimentul favorabil” ca evenimentul ca un debitor intarzie cu platile mai mult de 45 de zile. Variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de zile cu efectuarea 

platilor este Y : 

0

n − m

unde

iar

1 , m 

Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion pentru care se verifica evenimentul favorabil, m = n4 + n5 + n6 = 75 debitori, Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n − m este numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil, n − m = 425 debitori. Media variabilei alternative este f =

m 75 = = 0,15 , adica 15% dintre debitori au intarziat mai n 500

mult de 45 de zile. 2 Dispersia variabilei alternative este s alt = f (1 − f ) =

salt =

m  m ⋅ 1 −  = 0,1275 , iar abaterea standard n  n

m  m ⋅ 1 −  ≅ 0,36 . n  n

27

Related Documents


More Documents from "Bogdan Pisai"