+ All Categories
Home > Documents > Analiza Datelor - Proiect SAS

Analiza Datelor - Proiect SAS

Date post: 26-Nov-2023
Category:
Upload: independent
View: 0 times
Download: 0 times
Share this document with a friend
24
Cuprins Cuprins................................................................................................................................2 Introducere..........................................................................................................................3 I. Analiza componentelor principale...................................................................................4 1.1. Standardizarea datelor........................................................................................4 1.2. Matricea de corelatie..........................................................................................5 1.3. Vectorii si valorile proprii..................................................................................6 1.4. Reprezentarea grafica.........................................................................................7 II. Analiza factoriala...........................................................................................................9 2.1. Matricea de corelatie..........................................................................................9 2.2. Corelarea factorilor..........................................................................................10 2.3. Graficul corelarii..............................................................................................10 2.4. Descompunerea variabilitatii...........................................................................11 2.5. Scorurile factor................................................................................................11 III. Analiza cluster............................................................................................................12 3.1. Clasificarea variabilelor prin Metoda lui Ward..............................................12 3.2. Clasificarea variabilelor prin Metoda agregarii complete .............................13 3.3. Clasificarea indivizilor prin Metoda lui Ward................................................15 3.4. Clasificarea indivizilor prin Metoda agregarii complete ...............................16 IV. Analiza discriminanta.................................................................................................18 4.1. Clasificatorul lui Bayes...................................................................................18 4.2. Clasificatorul lui Fisher...................................................................................20 Concluzii..........................................................................................................................22 Bibliografie......................................................................................................................23
Transcript

Cuprins

Cuprins................................................................................................................................2Introducere..........................................................................................................................3I. Analiza componentelor principale...................................................................................4

1.1. Standardizarea datelor........................................................................................41.2. Matricea de corelatie..........................................................................................51.3. Vectorii si valorile proprii..................................................................................61.4. Reprezentarea grafica.........................................................................................7

II. Analiza factoriala...........................................................................................................92.1. Matricea de corelatie..........................................................................................92.2. Corelarea factorilor..........................................................................................102.3. Graficul corelarii..............................................................................................102.4. Descompunerea variabilitatii...........................................................................112.5. Scorurile factor................................................................................................11

III. Analiza cluster............................................................................................................123.1. Clasificarea variabilelor prin Metoda lui Ward..............................................123.2. Clasificarea variabilelor prin Metoda agregarii complete .............................133.3. Clasificarea indivizilor prin Metoda lui Ward................................................153.4. Clasificarea indivizilor prin Metoda agregarii complete ...............................16

IV. Analiza discriminanta.................................................................................................184.1. Clasificatorul lui Bayes...................................................................................184.2. Clasificatorul lui Fisher...................................................................................20

Concluzii..........................................................................................................................22Bibliografie......................................................................................................................23

IntroducereIn cele ce urmeaza am realizat o canaliza a ofertei de autoturisme a unui dealer. Scopul final este

acela de a stabili care sunt caracteristicile definitorii in alegerea unei masini personale.

Tabelul urmator contine caracteristicile a 26 de mărci de autoturisme oferite spre vânzare. Tabelul are 26 de linii – corespunzătoare mărcilor de autoturisme analizate şi 7 coloane, reprezentând preţul şi alte caracteristici tehnice şi de confort ale autoturismelor:

1. Preţul ($);2. Capacitatea cilindrică (cmc); 3. Viteza maximă (km/h); 4. Consumul de carburant (litri/100 km); 5. Capacitatea habitaclului(cmc); 6. Lungimea (cm);7. Raportul greutate-putere. Tabelul 1. Datele initiale

model pret cap cilindrica viteza max consum gr/p lungime cap habitaclu

Austin Metro Special 12000 998 140 6,2 23,2 340 955CitroenAX 10RE 13275 954 145 5,6 19,4 350 1170DaihatsuCharadeTS 14625 993 145 6,7 20,8 361 1151FiatUno45Fire 13475 999 145 6,2 21,5 364 968FiatUnoTurboTE 25005 1301 200 8,9 11 364 968FiatUno70SL 17845 1302 165 7,7 16 364 968FordFiestaJunior 13050 1117 137 7 22,7 364 900FordFiestaXR-2 21743 1597 180 9,3 12 364 973Nissan Micra 1.0 DX 12400 988 140 6,4 17 364 375Opel Corsa Swing 13050 993 143 7,2 22,4 362 845Peugeot20SXE 13260 954 134 6,8 23,8 370 1200Peugeot20SGL 15780 1124 142 5,8 21,4 370 1200Peugeot20SGT 18965 1360 170 9,2 13,9 370 1200Peugeot20SGTI 25175 1580 190 8,7 11,2 370 1200Renault4TL 12981 956 115 6,3 33,1 367 950RenauIt4GTL 13806 1108 120 6,3 28,4 367 950Renault5SL 14156 1108 143 5,8 20,6 359 915Renault5GTS 17250 1397 167 7,9 13,8 359 915Renault5GTTurbo 25319 1397 200 8,7 10,2 359 915SEATIbizaGLX 19283 1461 175 8,8 14,7 364 1200SEATMarbellaGL 10970 903 131 7,3 23,4 347 1088SuzukiSwiftGA 12115 993 145 6,4 18,4 358 400SuzukiSwiftGL 14655 1324 163 6,5 14 358 400ToyotaStarlettL 14000 999 150 6,1 19,5 370 202ToyotaStarlettXL 16850 1295 170 6,8 15 370 202Volkswagen Polo 18045 1272 170 8 14 365 1040

2

I. Analiza componentelor principale

Analiza a Componentelor Principale este o tehnica de analiza a datelor care are drept scop descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus de componente, fara ca aceasta forma sa contina redundante informationale.Aceste componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre ele, fiecare fiind o combinatie liniara de variabilele originale.

Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa indicatori relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a autoturismelor.

Vom considera prima variabila, pretul, ca fiind un indicator general esential in alegerea unei masini. Urmatoarele patru variabile sunt caracteristici tehnice care caracterizeaza puterea si rapiditatea unui autoturism iar ultimile doua variabile indica gradul de confort ale acestuia.

Pe baza celor 7 caracteristici sunt variabile vom calcula cativa indicatori de centrare si imprastiere:

Figura 1. Indicatori

1.1. Standardizarea datelorDeoarece ordinul de marime al datelor si unitatile de masura este foarte diferit, vom efectua Analiza

Componentelor Principale pe date standardizate.

Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecarei operatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei variabile:

unde reprezinta media celei de-a i-a variabile, iar reprezinta abaterea standard a variabilei .

pentru cazul deplasat:

3

pentru cazul deplasat:

Figura 2. Standardizarea datelor

1.2. Matricea de corelatiePentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza matricea

coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile dintre variabilele initiale si determina componentele pricipale.

Figura 3. Matricea de corelatii

4

Identificam in matrice coeficientii de corelatie mari. De exemplu intre viteza maxima si pretul se observa o corelatie de 0,913, intre capacitatea cilindrica si pret o corelatie de 0,849, intre viteza maxima si capacitatea cilindrica corelatia este de 0,829 iar intre consum si pret o corelatie de 0,808.

1.3. Vectorii si valorile propriiCum componentele principale sunt combinatii liniare de variabile originale, le putem privi sub forma

unui vector de forma: , unde , sunt variabilele originale

si ponderile din tabelul de mai jos.

Astfel componenta principala se scrie: .

Figura 4. Vectorii proprii

Calculam valorile propii ce ne arata cantitatea de informatie extrasa de fiecare componenta principala:

in spatiul indivizilor;

in spatial variabilelor,

unde este componenta principala de ordin k si valoarea proprie corespunzatoare acesteia.

Figura 5. Valorile proprii

5

In figura 5 in prima coloana sunt valorile proprii ce exprima varianta explicata prin fiecare noua componenta principala si corelatia dintre noua variabila si variabilele vechi. A doua coloana reprezinta

diferentra dintre 2 componente consecutive. In a treia coloana a doua a tabelului este exprimat procentul din inertia totala a norului de puncte retinut pe fiecare axa. In a patra coloana este exprimat procentul cumulativ al componente dinainte.

Deoarece primele 2 valori proprii sunt mai mari decat 1 (Criteriul lui Kaiser), putem spune ca avem 2 componente principale care sintetizeaza din punct de vedere informational toate cele 5 variabile originale.

Astfel prin intermediul primei componente principale se asigura conservarea a 62,20% din varianta totala .

Varianta celei de-a doua componente principale este egala cu valoarea proprie 1,13342 si retine 16,19% din varianta totala iar cumulativ cu prima componenta retine 78,39% din varianta totala.

1.4. Reprezentarea grafica

Pe grafic am identificat diferentele semnificative existente intre valorile proprii si am trasat o paralela la abscisa deasupra ultimei astfel de diferente iar numarul de valori proprii aflate in partea superioara dreptei reprezinta numarul de componente principale.

Dupa trasarea dreptei putem afirma pe baza graficului ca primele 2 valori proprii sunt si componentele principale si explica o parte din multimea norului de puncte.

Figura 6. Grafice ale valorilor proprii Figura 7. Varinta cumulata a componentelor

6

Graficul din figura 7 exprima legatura dintre componentele principale si varianta cumulata pe care acestea o conserva. Prima componenta principala retine 62,20% din varianta totala, a doua componenta principala retine 78,39% din variata totala si asa mai departe.

7

Figura 8. Graficul componentei 1 cu 2

Analizand graficul 8 observam ca prima componenta este influentata direct si puternic de „consum”, „pret”, „cap cilindrica”, „viteza max” si invers de catre variabila „raport”, iar asupra componentei doi actioneaza direct variabila „cap habitaclu” si invers variabila „lungime”.

Aceste influente se pot observa in tabelul de mai jos:

Figura 9. Tabelul influentei factorilor

II. Analiza factorialaAnaliza factoriala este unul din cele mai eficiente si mai frecvent utilizate instrumente in modelarea

statistico-matematica. Analiza factoriala presupune ca valorile unui ansamblu de variabile aleatoare

se formeaza ca rezultat exclusiv al influentelor a 3 categorii de factori: factori comuni, factori

unici si factori reziduali. Ea are ca scop extragerea numarului de factori ascunzi responsabili de corelatiile dintre variabilele originale. Daca aceste corelatii sunt semnificative, se poate presupune ca ar fi cauzate de existenta unuia sau a mai multor factori ascunsi comuni tuturor variabilelor.

Analiza factoriala ne permite sa confirmam statistic un rezultat privind modul de grupare al variabilelor originale.

2.1. Matricea de corelatieFigura 10. Matricea de corelatie

Figura 11. Matricea ortogonala

Inmultind matricea ortogonala cu matricea Factor Pattern de la Analiza Componentelor Principale obtinem matricea Rotated Factor Pattern.

9

2.2. Corelarea factorilor Figura 12. Tabel Rotated Factor Patern

Din tabelul de mai sus se observa ca factorul 1 este puternic corelat cu variabilele „viteza maxima”, „pret”, „cap cilindrica” si „consum” iar al doilea factor este este puternic corelat cu „cap habitaclu”.

2.3. Graficul corelarii dintre cei 2 factori

Figura 13. Grafic Rotated Factor Pattern

.

Din grafic deducem aceeasi corelare a factorilor cu variabilele ca in cazul de mai sus: observam ca primul factor este puternic corelat cu variabilele „consum”, „pret”, „cap cilindrica”, „viteza max” si factorul 2 este puternic corelat cu variabila „cap habitaclu”.

10

2.4. Descompunerea variabilitatiiIn analiza factoriala variabilitatea se descompune in 3 componente: comunalitatea, unicitatea si

rezidualitatea.

In tabelul de mai jos este specificata comunalitatea totala si comunalitatea individuala a fiecarei variabile:

Figura 14. Comunalitatea

Comunalitatea pentru fiecare variabila s-a calculat dupa formula: , unde

este comunalitatea uneia dintre cele 7 variabile iar este varianta factorului i din matricea Rotated

Factor Pattern.

Specificitatea se poate obtine din diferenta 1- .

2.5. Scorurile factor Figura 15. Matricea scorurilor factor

O anumita observatie, corespunzatoar unui factor dat, este determinata sun forma unui scor corespunzator respectivului factor, format pe baza contributiei variabilelor originale. Scorurile sunt date de

urmatoarea relatie: , unde reprezita coeficientii din matricea scorurilor factor iar

xi sunt variabilele din matricea Rotated Factor Pattern.

11

III. Analiza clusterMetodele de analiza cluster au ca scop gruparea indivizilor, identificati printr-o serie de atribute, intr-

un numar cat mia restrans de clase omogene. Aceste metode realizeaza o analiza globala a indivizilor ce sunt studiati printr-un numar mare de variabile si ipoteze cerute minime. Astfel se realizeaza clase in asa fel incat indivizii apartinand aceleiasi clase sa fie cat mai asemanatori intre ei prin variabilele lor in timp ce clasele constituite sa fie cat mai diferite.

3.1. Clasificarea variabilelor prin Metoda lui Ward de clasificare ierarhica Metoda lui Ward este o metoda care comaseaza acele clustere pentru care suma patratelor abaterilor

la nivelul clusterului rezultat din comasare este cea mai mica, în comparaţie cu alte perechi de clustere

Figura 16. Dendograma orizontala a indicatorilor

Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din „cap habitaclu”, a doua grupa e formata din „raport”, a treia e formata din „lungime” si a patra formata din „consum”, „cap cilindrica”, „viteza max” si „pret”. Prima grupa reprezinta criteriile cele mai importante pe care le are in vedere un cumparator de autoturism.

12

Figura 17. Tabelul Cluster History

Conform tabelului de mai sus:

prima clasa (CL 6) este formata din „pret” si „viteza max” (frecventa 2); a doua clasa (CL 5) este formata din prima clasa si „cap cilindrica” (frecventa 3); a treia clasa (CL 4) este formata din clasa a doua si „consumul” (frecventa 4); a patra clasa (CL3) este formata din „raport” si „cap habitaclu” (frecventa 2); a cincea clasa (CL 2) este formata din clasa a patra si „lungimea” (frecventa 5) a sasea clasa (CL1) este formata din clasele a doua si a treia (frecventa 7).

3.2. Clasificarea variabilelor prin Metoda agregarii complete de clasificare ierarhica Metoda agregarii complete comasează in fiecare etapa a clasificarii acele clustere pentru care

distanta dintre cele mai departate obiecte este cea mai mica, in comparatie cu alte perechi de clustere.

Figura 18. Dendograma orizontala a indicatorilor

13

Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din „cap habitaclu”, a doua grupa e formata din „raport”, a treia e formata din „lungime” si a patra formata din „consum”, „cap cilindrica”, „viteza max” si „pret”. Prima grupa reprezinta criteriile cele mai importante pe care le are in vedere un cumparator de autoturism.

Figura 19. Tabelul Cluster History

Conform tabelului de mai sus:

prima clasa (CL 6) este formata din „viteza max” (frecventa 2); a doua clasa (CL 5) este formata din „cap cilindrica” (frecventa 3); a treia clasa (CL 4) este formata din „consumul” (frecventa 4); a patra clasa (CL3) este formata din „lungime” (frecventa 5); a cincea clasa (CL 2) este formata din „cap habitaclu” (frecventa 2) a sasea clasa (CL1) este formata din clasa CL2 (frecventa 7).

14

3.3. Clasificarea indivizilor prin Metoda Ward de clasificare ierarhica

Figura 20. Dendograma orizontala pentru indivizi

Pentru un prag de distanta de 0,11, se obtin 3 grupe: prima grupa este formata din 12 indivizi, a doua grupa este formata din 5 indivizi iar a treia grupa e formata din 9 indivizi. Fiecare grupa reprezinta marcile

15

cocurente de autoturisme.

Conform tabelului de mai jos:

Pentru un prag de distanta de 0,11, se obtin 3 grupe: prima grupa este formata din 12 indivizi, a doua grupa este formata din 5 indivizi iar a treia grupa e formata din 9 indivizi.

clasa CL 21 este formata din „DaihatsuCharade 1.0 DX” si „Fiat Uno 45 Fire” (frecventa 2); clasa CL 17 este formata din clasa 21 si „Remault t5SL” (frecventa 3); clasa CL 13 este formata din „Austin Metro Special” si „Seat Marbella GL” (frecventa 2); clasa CL 10 este formata din clasa 13 si „Citroen AX 10RE” (frecventa 3); clasa CL 2 este formata din clasa 3 si clasa 6 (frecventa 17)

Figura 21. Tabelul Cluster History

3.4. Clasificarea indivizilor prin Metoda agregarii complete de clasificare ierarhica Figura 22. Dendograma orizontala pentru indivizi

16

Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din 3 indivizi, a doua grupa este formata din 9 indivizi, a treia grupa e formata din 5 indivizi iar a patra e formata din 9 indivizi. Fiecare grupa reprezinta marcile cocurente de autoturisme.

Figura 23. Tabelul Cluster History

17

Conform tabelului de mai sus:

Pentru un prag de distanta de 0,11, se obtin 3 grupe: prima grupa este formata din 12 indivizi, a doua grupa este formata din 5 indivizi iar a treia grupa e formata din 9 indivizi.

clasa CL 21 este formata din „DaihatsuCharade 1.0 DX” si „Fiat Uno 45 Fire” (frecventa 2); clasa CL 17 este formata din clasa 21 si „Remault t5SL” (frecventa 3); clasa CL 13 este formata din „Austin Metro Special” si „Seat Marbella GL” (frecventa 2); clasa CL 10 este formata din clasa 13 si „Citroen AX 10RE” (frecventa 3); clasa CL 2 este formata din clasa 3 si clasa 6 (frecventa 17)

IV. Analiza discriminanta Principala problema care trebuie rezolvata in cadrul analizei discriminate este aceea a construirii

criteriilor sau regulilor de clasificare, pe baza carora se pot face predictii privind apartenenta unor forme noi, cu apartenenta initiala necunoscuta. Criteriile de clasificare mai sunt cunoscute si sub numele de clasificatori, iar deducerea acestor criterii se numeste formare a clasificatorului.

18

Clasificatorul este un algoritm cu ajutorul caruia se stabileste apartenenta cea mai probabila a unei forme la o anumita clasa de predictie. Formarea clasificatorului se face pe baza informatiilor continute intr-un esantion de forme a caror apartenenta este cunoscuta aprioric si care se numeste set de formare.

4.1. Discriminatorul Bayes Figura 24. Analiza discriminatorie

Din analiza discriminanta de mai sus s-au observat 26 de obiect, 7 variabile si 3 clase (Capitolul 3.3, Figura 20 – incadram fiecare masina in cele 3 clase formate pentru nivelul 0,11). Prima clasa contine 12 obiecte (cu o proportie de 46,15 %), a doua clasa are in compozitie 5 obiecte (cu o proportie de 19,23%) iar a treia clasa are 9 obiecte (cu proportie de 34,61%).

Figura 25. Clasele de obiecte

19

Din tabelul de mai sus interpretam probabilitatile: Daca probabilitatea sa apartina clasei 1 este mai mare decat probabilitatea de a apartine clasei 2

si 3 atunci această forma va apartine clasei 1 Daca probabilitatea sa apartina clasei 2 este mai mare decat probabilitatea de a apartine clasei 1 si

3 atunci aceasta forma va fi în clasa 2. Daca probabilitatea sa apartina clasei 3 este mai mare decat probabilitatea de a apartine clasei 1 si

2 atunci aceasta forma va fi în clasa 3.

Ex: individul 19 are probabilitatea 1 ca sa apartina clasei 3 => apartine clasei 3

Figura 26. Resubstition Figura 27. Crossvalidation20

Din tabelul de mai sus se observa ca obiectele au fost corect plasate in clase: am previzionat corect ca

din clasa 1 fac parte 12, din clasa 2 fac parte 5 obiecte si din clasa 3 fac parte 9 obiecte. Probabilitatea ca sa gresim plasarea unui obiect intr-o clasa este 0.

4.2. Discriminatorul Bayes Figura 28. Analiza discriminatorie

Din analiza discriminanta de mai sus s-au observat 26 de obiect, 7 variabile si 3 clase. Probabilitatea ca un obiect sa apartina unei clase din cele 3 e de 33,33%.

Figura 29. Clasele de obiecte

21

In tabelul de mai sus observam ca au fost plasate gresit 7 obiecte:

Obiectul 6 a fost plasat in clasa 1 dar el apartine clasei 3; Obiectul 9 a fost plasat in clasa 3 dar el apartine clasei 2; Obiectul 20 a fost plasat in clasa 1 dar el apartine clasei 1; Obiectul 22 a fost plasat in clasa 3 dar el apartine clasei 2; Obiectul 23 a fost plasat in clasa 1 dar el apartine clasei 2; Obiectul 24 a fost plasat in clasa 1 dar el apartine clasei 2; Obiectul 25 a fost plasat in clasa 1 dar el apartine clasei 2;

Figura 30. Resubstition Figura 31. Crossvalidation

Din tabelul de mai sus se observa ca obiectele nu au fost corect plasate in clase: am previzionat

corect ca din clasa 1 fac parte 12 insa previziunea conform careia din clasa 2 fac parte 5 obiecte si din clasa 3 fac parte 9 obiecte a fost gresita.

Am previzionat ca 3 obiecte apartin clasei 1 si 2 obiecte apartin clasei 3 dar de fapt ele apartin clasei 2. De asemenea am previzonat ca 2 obiecte apartin clasei1 si 9 apartin clasei 3 insa ele apartin clasei 3.

Probabilitatea ca sa gresim plasarea unui obiect intr-o clasa este de 40,74%.

Concluzii22

Analizele comparative prezinta o importanta deosebita deoarece, prin efectuarea si publicarea constanta a rezultatelor obtinute, au o mare influenta atat asupra consumatorilor cat si a producatorilor, facandu-i pe consumatori mai circumspecti si mai rationali privind procesul de achizitionare a bunurilor.

Intr-o cercetare a lumii inconjuratoare ne bazam, de regula, pe existenta unui numar de indivizi distincti ai unei populatii studiate. In legatura cu acesti indivizi (obiecte sau cazuri) urmarim una sau mai multe marimi care, credem noi, îi caracterizeaza.

Cercetatorul în analiza datelor are ca sarcina sa extraga din acest tabel de date cat mai multa „informatie semnificativa” si s-o prezinte intr-o forma cat mai restransa. Odată acest deziderat realizat, orice decizie viitoare privind comportamentul populatiei studiate poate fi explicata prin argumente stiintifice.

Pe baza analizei efectuate asupra ofertei de autoturisme a unui dealer, am putut sa concluzionam care sunt marcile concurente, care sunt cele mai preferate de cumparatori si ce caracteristici primeaza la achizitionarea unui autoturism astfel incat dealer-ul auto sa-si formeze un plan de achizitii si vanzari care sa-i aduca un profit cat mai mare.

23

Bibliografie

1. Ruxanda Gheorghe, „Analiza multidimensională a datelor- suport curs”, Editura ASE, Bucureşti, 2009

2. Spircu Liliana, „Analiza datelor. Aplicaţii economice”, Editura ASE, Bucureşti, 2005

24


Recommended