Subiecte 2013 Analiza Datelor

  • Uploaded by: Simi Sim
  • 0
  • 0
  • February 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Subiecte 2013 Analiza Datelor as PDF for free.

More details

  • Words: 2,930
  • Pages: 9
Loading documents preview...
Subiecte 1. Definiti si caracterizati principalele concepte utilizate în analiza datelor (populatie, esantion, observatie, variabile etc.) 1) Data SCOP: defineste  intrarile oricarui process de analiza a datelor  materia prima supusa prelucrarii  iesirile, rezultatele si concluziile obtinute Datele = semnale si mesaje provenite din realitatea inconjuratoare, pe baza carora receptorul isi formeaza o anumita imagine despre respectiva realitate, poate obtine un anumit grad de cunoastere a acelei realitati Datele in AD = expresia cantitativa si calitativa ale unor fenomene si procese din realitatea inconjuratoare Clasificare:   

cantitative calitative mixte

Pot fi exprimate sub forma cantitativa

2) Populatie (colectivitate generala) = multimea tuturor masuratorilor efective sau conceptuale care prezinta interes pt cercetator sau experimentator. SCOP: obiectul de studiu global al AD =>  se obtin estimatii pt o serie de marimi specifice aceleiasi populatii statistice,  se efectueaza predictii pt structurarea pe tipologii sau pt evolutia populatiei statistice Populatia statistica = totalitatea observatiilor posibile dintr-un studiu Clasificare:  finita  infinita 3) Esantion (parte a unei populatii) = submultime de masuratori selectate dintr-o populatie, o submultime a populatiei statistice supusa investigatiei stiintifice SCOP: baza informationala utilizata in procesele de AD 4) Observatii = valoarea sau setul de valori inregistrate pt o anumita unitate elementara a populatiei, la una sau mai multe caracteristici ale acesteia (valori luate de variabilele supuse analizei) SCOP: unitatea elementara de informatie utilizata in procesele de prelucrare => multimea observatiilor = baza informationala a AD  esantion 5) Variabilele = abstractizari ale multimii de valori posibile pe care le poate inregistra o caracteristica a unui anumit fenomen. Unitatile supuse efectiv procesului de masurare si inregistrare sunt alese dupa criteria si reguli precise, fundamentate riguros dpdv statistic-matematic. Valorile pe care le iau caracteristicile unitatilor studiate prin intermediul acestui procedeu formeaza esantionul de observatii. 2. Ce sunt variabilele si cum se clasifica acestea

Variabilele = abstractizari ale multimii de valori posibile pe care le poate inregistra o caracteristica a unui anumit fenomen.

Clasificare dupa natura:  Calitative = difera prin tip, se refera la proprietati nenumerice ale unitatilor elementare apartinand unei populatii si nu pot fi exprimate numeric (ex: sexul, profesia)  Cantitative = difera prin marime, se refera la proprietati numerice ale unitatilor elementare dintr-o populatie si sunt exprimate in unitati numerice: de lungime, greutate, valorice etc (ex: pret, salariu mediu lunar) Clasificare dupa natura valorilor pe care le iau:  De tip discret (variabile categoriale)= pot lua o multime limitata, finita de valori  De tip continuu = pot lua valori apartinand unui interval continuu 3. Ce este scala de masurare si care sunt principalele tipuri de scale de masurare utilizate în analiza datelor O scala reprezinta un etalon corespunzator, care stabileste modul dupa care sunt atribuite valori variabilelor; a defini o scala de masurare este echivalent cu:  A stabili o multime de valori posibile ale variabilei, o multime numita si spatiu de selectie  A preciza regulile dupa care sunt atribuite simboluri pt elementele unei realitati date, adica a defini o structura a spatiului de selectie Clasificare:  Scale de tip non-metric  Scala nominala  Scala ordinala  Scale de tip metric:  Scala interval  Scala raport 4. Definiti si caracterizati scala nominala si scala ordinala. Evidentiati operatiile posibile pe aceste tipuri de scale. Scala nominala = scala non-metrica, prin intermediul careia valorilor posibile ale caracteristicilor masurate li se atribuie simboluri fara relevanta numerica, in functie de natura acestor valori (ex: genul unei persoane) Pt caracteristicile masurate pe scala nominala, poate fi calculate un nr limitat de indicatori statistici, care reprezinta contorizari ale simbolurilor aparute pe scala nominala. Indicatorii sunt: modulul si frecventa. Poate fi evidentiata si distributia de frecventa. Scala ordinala = scala non-metrica, prin intermediul careia valorilor posibile ale caracteristicilor li se atribuie numere de ordine sau ranguri, in functie de pozitia acestor valori intr-o ierarhie.(ex: nivelul studiilor) Pt caracteristicile masurate pe scala ordinala, pot fi calculate o serie de indicatori statistici cum ar fi: modulul, mediana, coeficientul de corelatie a rangurilor, frecventa. Se poate evidentia si distributia de frecventa. (media si diferentele valorilor variabilelor ordinale sunt nerelevante, nu au sens informational si nici sens logic)

5. Definiti si caracterizati scala interval si scala raport. Evidentiati operatiile posibile pe aceste tipuri de scale Scala interval = scala quasi-metrica, prin intermediul careia valorilor posibile ale caracteristicilor masurate li se atribuie valori numerice, fara ca pt acest valori numerice sa existe o origine prestabilita(ex: durata programului de lucru) Pe langa operatiile premise pe primele doua scale, scala interval permite: calculul mediei, calculul abaterii standard, calculul momentelor, calculul coeficientilor de corelatie Pearson. Scala raport = scala metrica, prin intermediul careia valorilor posibile pe care le pot lua caracteristicile masurate li se atribuie numere definite in raport cu o origine prestabilita. (ex: pretul) Pentru aceasta scala sunt permise toate operatiile definite pentru variabilele numerice. 6. Care sunt principalele moduri de reprezentare (matriciala) a informatiilor în analiza datelor. Definiti si exemplificati fiecare dintre aceste moduri Exista 3 forme matriciale principale:  Matrici de observatii  Matrici sau tabele de contingenta  Matrici sau tabele de proximitate Matrici de observatii (matrici de tip obiecte x caracteristici) = tablou rectangular in care liniile(=observatii) reprezinta obiectele supuse masuratorilor, iar coloanele (=variabile) reprezinta caracteristicile obiectelor. (elementele tabloului reprezinta valori inregistrate in procesul de masurare(=scoruri) pt caracteristicile obiectelor supuse masuratorilor) Exemplificare: Fie T = nr obiectelor supuse analizei si n=nr de caracteristici ale obiectelor => matricea de observatii este: Valoarea inregistrata pentru ce-a de-a 2 (j) caracteristica a obiectului O coloana (j) reprezinta 1(i) valorile inregistrate de caracteristica j pe multimea tuturor obiectelor T O linie(i) defineste un obiect Oi, reprezinta valorile inregistrate de obiectul i la cele n caracteristici pe care le poseda Matrici de contingenta (de tip modalitati x modalitati) = tablouri de dimensiune mxn, folosite pt a reprezenta datele referitoare la frecventele relative sau absolute inregistrate pe o multime de obiecte de valorile a 2 variabile de tip discret, prima variabila, notata cu u (valore pe linie), avand m valori posibile, iar ce-a de-a doua variabila notata cu v (valore pe coloana), avand n valori posibile. Exemplificare: Un element xij = frecventa, relativa sau absoluta, a obiectelor pt care prima variabila ia valoarea ui, iar ce-a de-a doua variabila ia valoarea vj. Elementul arata la cate obiecte cele 2 variabile analizate au simultan valorile ui si vj.

Matrici de proximitate (de tip obiecte x obiecte) = matrici patratice de dimensiune nxn, utilizate pt reprezentarea datelor cu privire la similaritatea sau nesimilaritatea unor obiecte. Ordinul acestor matrici e determinat de nr obiectelor supuse studiului. Exemplificare: Un element xij masoara gradul de proximitate dintre obiectul i si obiectul j 7. Definiti principalii indicatori (unidimensionali) cu ajutorul carora este sintetizata tendinta centrala sau locatia sau pozitia (inclusiv relatii de calcul si proprietati). Aratati ca media este o sinteza optimala pentru o multime de observatii a) Media b) Mediana c) Modul 8. Definiti principalii indicatori (unidimensionali) cu ajutorul carora este sintetizata variabilitatea (inclusiv relatii de calcul si proprietati).

9 Definiti varianta simpla, varianta totala si varianta generalizata. Deduceti si interpretati varianta generalizata. Aratati ca varianta generalizata este egala cu determinatul matricii de covarianta 10. Definiti principalii indicatori (unidimensionali) cu ajutorul carora sunt sintetizate legaturile (inclusiv relatii de calcul si proprietati) a. Covarianta = masura a variantei simultane a 2 variabile, fiind, in valoare absoluta cu atat mai mare cu cat valorile absolute ale variatiilor celor 2 variabile in jurul mediei sunt mai apropiate ca magnitudine, evidentiind o anumita proportionalitate pe multimea subiectilor studiati. (= expresie numerica a gradului de asociere a 2 caracteristici ca urmare a faptului ca, in toate cazurile in care 2 variabile sunt semnificativ legate intre ele o varianta intr-un sens a uneia dintre ele, va determina o variatie proportionala de acelasi sens (leg directa) sau de sens contrar (leg inversa) a celeilalte variabile Relatii de calcul:  In cazul a 2 variabile xi si xj se foloseste formula



In cazul in care cele 2 variabile coincid, adica xi=xj, covarianta coincide cu varianta:

Proprietati:  Marime nescalata  Nu are o margine superioara (in valoare absoluta, covarianta are o margine inferioara, reprezentata de valoarea 0 = lipsa asociere de tip liniar)

11. Definiţi si interpretati corelatia si coeficientul de corelatie

12. Definiti datele de tip profil, de tip chronologic (serii de timp) si de tip panel. Exemplificati fiecare dintre cele trei tipuri Date de tip profil (= date de tip secventa/ sectiune)=informatii obtinute prin masuratori de natura statica, efectuate asupra caracteristicilor unor unitati ale unei populatii, la acelasi moment de timp. Exemplificare: date referitoare la salariul individual dintr-o luna al lucratorilor unei firme. Date de tip cronologic = informatii obtinute prin masuratori de natura dinamica, efectuate asupra caracteristicilor unei unitati a unei populatii la momente sau intervale succesive de timp. Exemplificare: date care se refera la evolutia in timp a starii unei gospodarii Date de tip panel = informatii obtinute prin masuratori mixte (static + diamic), efectuate asupra caracteristicilor acelorasi unitati ale unei populatii la momente sau in intervale succesive de timp. Exemplificare: bugetul de familie 13. Definiti datele de tip observational si de tip experimental. Exemplificati fiecare categorie Date experimentale = informatii obtinute prin organizarea unor experimente controlate, in care influentele factorilor asupra efectului sunt controlate in mod direct, prin fixarea unor combinatii precise de influente. Exemplificare: date caracteristice unor domenii de cercetare (in care se fac experimente) – domeniul stiintelor natural, date de laborator Date non-experimentale (observationale) = informatii obtinute prin observarea libera a miscarii fenomenelor si proceselor studiate, fara interventia directa a investigatorului asupra conditiilor in care se desfasoara aceasta miscare. Exemplificare: caracteristice domeniului economico-social, observarea atitudinii consumatorilor cand apare un nou tip de produs pe raftul din supermarket. 14. Care sunt principalele tipuri de transformari preliminare ale datelor. Interpretati marimile rezultate în urma acestor transformari si mentionati proprietatile acestora o Operatia de centrare a datelor originale Fie n variabile si T observatii => operatia de centrare a observatiilor variabilei xi consta in calculul noilor observatii, adica al valorilor centrate, dupa relatia: Media celei de-a i-a variabile o Operatia de standardizare a datelor originale

15. Definti principalele tipuri de matrici utilizate în analiza datelor (produse-încrucisate, covarianta, corelatie). Evidentiati relatiile de legatura dintre aceste tipuri de matrici o Matricea produselor incrucisate poate fi determinata atat pt variabilele originale, cat si pt variabilele centrate si standardizate. Matricea este produsul dintre transpusa matricii X si X.

o Matricea de covarianta Daca nr de variabile analizate este n, covariantele dintre orice 2 variabile pot fi aranjate sub forma unei matrici patrate si simetrice, de dim nxn, numita matrice de covarianta.

o Matricea de corelatie

16. Ce este analiza componentelor principale. Evidentiati cinci categorii de probleme care pot fi solutionate cu ajutorul tehnicilor de analiza a componentelor principale Analiza componentelor principale = tehnica de analiza multidimensionala care are ca scop descompunerea variabilitatii totale din spatial cauzal initial sub forma unui nr redus de componente si fara ca aceasta descompunere sa contina redundante informationale. Analiza componentelor principale poate rezolva urmatoarele categorii de probleme: - eliminarea redundantelor informationale; - reducerea dimensionalitatii spatiului causal ; - compresia si restaurarea datelor; - simplificarea modelelor matematice; - selectarea variabilelor de influenta; 17. Interpretati logica analizei componentelor principale (inclusiv din punct de vedere geometric) În acest sens, vom considera contextul numeric oferit de exemplul următor, context care va servi ca referință pentru multe din interpretările și exemplificările ulterioare. Exemplu: Vom considera cazul unui număr de 10 obiecte sau observații, referitoare la două variabile, X1 și X2. Tabelul următor conține observațiile inițiale disponibile pentru cele două variabile, precum și valorile centrate ce corespund acestor observații.

Valorile observațiilor inițiale și centrate Observația O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 Media Varianța

Valori inițiale X1 7,0 5,0 10,0 2,0 5,0 6,0 7,0 9,0 7,0 6,0 6,4 4,933

Valori centrale

X2 10,0 11,0 15,0 5,0 10,0 13,0 12,0 11,0 8,0 10,0 10,5 7,389

0,6 -1,4 3,6 -4,4 -1,4 -0,4 0,6 2,6 0,6 -0,4 0 4,933

-0,5 0,5 4,5 -5,5 -0,5 2,5 1,5 0,5 -2,5 -0,5 0 7,389

Varianța individuală pentru fiecare din cele două variabile este 4,933, respectiv 7,389, iar varianța totală, corespunzătoare celor două variabile, X1 și X2 este 12,322: S11 = 4,933;

S22 = 7,389;

VT = 12,322.

În aceste condiţii, se poate spune că rolul informaţional al celor două variabile este aproximativ acelaşi, că cele două variabile au aproximativ aceeaşi contribuţie la formarea variabilităţii totale ce caracterizează spaţiul cauzal iniţial. Prima variabilă are o contribuţie la formarea varianţei totale de 46,45%, iar cea de-a doua variabilă contribuie cu 53,55% la formarea varianţei totale: = 46,45%;

= 53,55%.

Pentru observaţiile din tabelul anterior, matricea produselor încrucişate, matricea de covarianţă şi matricea de corelaţie, corespunzătoare celor două variabile X1 și X2, sunt următoarele: C=

S=

R=

În cazul observaţiilor centrale, matricea produselor încrucişate, matricea de covarianţă şi matricea de corelaţie sunt următoarele: C=

S=

R=

După cum se poate observa, în urma operației de centrare se modifică doar matricea produselor încrucișate, matricea de covarianță și matricea de corelație rămânând neschimbate. Matricea de corelație evidențiază faptul că cele două variabile sunt corelate, la nivelul unui coeficient de corelație de 0,736, adică:

r12 = r21 = 0,736 Având în vedere intensitatea relativ ridicată a legăturii dintre cele două variabile originale, este de aşteptat ca aceste variabile să poată fi sintetiyate prin intermediul unei singure componente principale, în condiţiile unei pierderi informaţionale minime. 18. Definiti componentele principale si mentionati proprietatile acestora Componentele principale sunt variabile vectoriale abstracte, definite sub forma unor combinații liniare de variabilele originale. Proprietățile componentelor principale sunt:  Sunt necorelate două câte două și suma pătratelor coeficienților care definesc combinația liniară ce corespunde unei componente principale este egală cu unitatea;  Prima componentă principală este o combinație liniară normalizată a cărei varianță este maximă, cea de-a doua componentă principală este o combinație liniară necorelată cu prima componentă principală și care are o varianță cât mai mare posibilă, însă mai mică decât cea a primei componente etc. 19. Formulati modelul matematic al analizei componentelor principale, definiti si interpretati marimile definitorii ale acestuia Consideram ca spatiul cauzal initial supus investigarii este determinat de un nr de n variabile (=caracteristici ale obiectelor supuse analizei) explicative notate cu x1,x2…xn. (fiecare obiect este caracterizat de n variabile) Activitatea de determinare a componentelor principale poate fi descries prin intermediul unei transformari de tipul: Spatii vectoriale reale, dim celui Marimi definitorii: de-al doilea este << decat dim primului, k
20. Ilustrati modul de deducere a componentelor principale 21. Definiti si justificati 3 dintre proprietatile componentelor principale o Varianta fiecarui componente principale este maxima si este egala cu o valoare proprie a matricii de covarianta. o Componentele principale sunt necorelate doua cate doua, aceasta proprietate este echivalenta cu proprietatea de independenta in cazul in care componentele principale sunt distribuite dupa legea de probabilitate normal o 22. Interpretati vectorii si valorile proprii ale matricii de covarianta 23. Ce sunt scorurile principale si cum se determina acestea. De ce este necesara determinarea scorurilor principale 24. Ce este matricea factor (matricea de corelatie intre variabilele originale si componentele principale). Cum se calculeaza si cum se interpreteaza elementele sale

25. Detaliati modul în care pot fi interpretate componentele principale în termeni cu semnificatie concreta. Exemplificati 26. Criterii de alegere a numarului de componente principale 27. Ce este analiza factoriala si ce tipuri de probleme pot fi rezolvate cu ajutorul acesteia 28. Structura generala a modelului de analiza factoriala 29. Definiti si interpretati descompunerea variabilitatii în contextul analizei factoriale 30. Ce sunt scorurile factor, cum se calculeaza si cum se interpreteaza acestea 31. Metode de estimarea modelului factorial 32. Definiti recunoasterea formelor si exemplificati câteva dintre aplicatiile acesteia în domeniul economico-financiar. 33. Definiti principalele concepte ale recunoasterii formelor 34. Formulati problema generala a clasificarii 35. Definiti sistemele de recunoastere controlata si necontrolata 36. Ce este analiza cluster, care sunt conceptele fundamentale ale acesteia si care sunt domeniile utilizarii ei 37. Definiti scopurile analizei cluster si descrieti tipul informatiilor utilizate în analiza cluster 38. Definiti analiza cluster si aratati cum se clasifica metodele de analiza cluster 39. Definiti conceptul de distanta si descrieti cateva modalitati de evaluare a distantelor dintre forme 40. Formulati criteriul general al clasificarii si aratati cum se evalueaza variabilitatea inter si intra cluster (cazul uni-dimens) 41. Formulati criteriul general al clasificarii si aratati cum se evalueaza variabilitatea inter si intra cluster (cazul n-dimens) 42. Metode de evaluare a distantelor dintre clustere 43. Descrieti analiza cluster de tip ierarhic si mentionati care sunt cele doua categorii de clasificare ierarhica 44. Descrieti metoda agregarii simple de analiza cluster 45. Descrieti metoda agregarii complete de analiza cluster 46. Descrieti metoda agregarii medii de analiza cluster 47. Descrieti metoda centroidului de analiza cluster 48. Decrieti metoda lui Ward de analiza cluster 49. Descrieti algoritmul k-means 50. Ce este dendrograma (arborele de clasificare ierarhica) si cum se construieste aceasta 51. Cum se alege numarul de clustere în cazul clasificarilor de tip ierarhic 52. Formulati problema generala a recunoasterii supervizate a formelor si mentionati cateva domenii de utilizare 53. Definiti scopurile recunoasterii supervizate a formelor si descrieti tipul informatiilor utilizate în recunoasterea supervizata 54. Ce sunt clasificatorii de tip liniar. Descrieti logica discriminarii liniare si spatiul discriminat 55. Definiti functiile discriminant liniare, variabilele discriminant si scorurile discriminant 56. Descrieti clasificatorul Bayesian si aratati cum poate fi utilizat acesta in predictia apartenentei formelor 57. Descrieti forma clasificatorului Bayesian in cazul normalitatii si homoscedasticitatii claselor 58. Descrieti clasificatorul liniar Fisher si aratati cum poate fi utilizat acesta in predictia apartenentei formelor 59. Descrieti clasificatorul Mahalanobis si aratati cum poate fi utilizat acesta in predictia apartenentei formelor 60. Descrieti modul de stabilire a abilitatii predictive a unui clasificator si matricea corectitudinii clasificarii

Related Documents

Analiza Datelor
February 2021 0
Subiecte Oracle
February 2021 2
Agrotehnica-subiecte
March 2021 0
Imunologie Subiecte
February 2021 1
Subiecte Olimpiade
February 2021 2

More Documents from "Miky2193"