DataScience Training



Analiza cluster
Feedback form    |       Redare audio    |   Download:    |   


Analiza cluster

Introducere

Analiza cluster Click to read  

Analiza cluster este o tehnic? de analiz? multivariat? care poate fi aplicat? în multe domenii: de la informatic?, medicin? ?i biologie, la arheologie ?i marketing, oricând este necesar? clasificare unei cantit??i mari de informa?ie în grupuri / clase distincte.

Obiectiv Click to read  

Analiza cluster este utilizat? pentru a grupa unit??i statistice (înregistr?ri) care au caracteristici comune ?i pentru a le aloca în categorii care nu sunt definite a priori. Grupele (clusterele) formate trebuie s? fie cât mai omogene în interior (chiar similar, intra-cluster) ?i cât mai eterogene între ele (chiar diferite, inter-cluster).
 

Tipuri de variabile Click to read  

În Analiza Cluster se pot utiliza:
- Variabile cantitative, deci numerice;
- Variabile calitative (de exemplu: gen, nivel de educa?ie, status marital, etc.)

Analiza Cluster

Matricea de disimilaritate (sau Matricea de distan?e) Click to read  

Matricea de distan?e, D, este util? pentru a afla câte unit??i statistice sunt diferite unele de altele, este esen?ial? pentru alegerea variabilelor care vor fi luate în calcul.
Matricea de distan?e, de dimensiuni ?×?, esto o matrice simetric? care are valoarea zero pe diagonala principal?, deoarece distan?a dintre un punct ?i el însu?i este zero. 
Înainte de a crea matricea de distan?e, matricea de start trebuie standardizat?, astfel încât fiecare variabil? s? aib? aceea?i pondere cu celelalte. 

Pentru a ob?ine matricea de distan?e, D, este necesar? calcularea distan?elor dintre puncte. În func?ie de tipul de variabil?, cantitativ? sau calitativ?, cu care se lucreaz?, aceste distan?e pot fi calculate în diferite moduri.

Variabile cantitative

- Distan?a Euclidian?, sensibil? la
valori extreme (outliers).
-Distan?a Manhattan, foarte robust?.
                                                                                                                                                                                        
                                                                                                                                                 

Variabile calitative

Frecven?ele sunt luate în calcul, matricea de similaritate este creat? ?i concordan?ele ?i discrepan?ele dintre variante sunt calculate.

Dou? tipuri de indici de similaritate:
- Zubin, pentru variabile binare simetrice.
- Jaccard, pentru variabile binare asimetrice.

 

 

 

 

Formarea Clusterelor Click to read  

Datorit? regulii de agregare, putem alege o metod? de agregare pentru a forma clusterele, din urm?toarele

Agregare simpl?
-Agregare complet?
-Agregare medie
 

Agregare simpl?:

Grupurile sunt agregate pe baza distan?ei minime dintre observa?ii, aceast? metod? favorizând omogenitatea elementelor fiec?rui grup, în detrimentul diferen?ierii. 

 

Agregare complet?:  
Grupurile sunt create conform distan?ei minime maxime dintre puncte, deci mai întâi sunt calculate distan?ele cele mai mari dintre grupuri si apoi sunt alese cele cu distan?ele cele mai mici. Aceast? modalitate de agregare eviden?iaz? diferen?ele dintre grupuri, mai degrab? decât omogenitatea intern?

Agregare medie:  
Grupurile sunt formate conform distan?ei medii minime, deci mai întâi se calculeaz? distan?a medie dintre toate observa?iile ?i ulterior dintre aceastea se alege distan?a minim?. Aceast? metod? de agregare este mai pu?in sensibil? la valori extreme, deci va fi mai robust?. 

 

Distan?a de agregare ?i Dendograma Click to read  

Dup? alegerea metodei potrivite de agregare pentru analiz? si pentru formarea grupelor, se poate crea reprezentarea grafic?: Dendograma.
Reprezint? grafic cre?terea nivelurilor de agregare ale clusterelor. Pe axa Ox sunt punctele, iar pe axa Oy sunt reprezentate distan?ele.

 

Distan?a dintre clustere tinde s? creasc? ?i din acest motiv trebuie definit? o regul? ”stop” care permite alegerea num?rului de grupuri ce se vor ob?ine

Pentru aceasta, se utilizeaz? tehnica sec?ion?rii arborelui:
- Se observ? cele mai lungi segmente (ramuri);
- Se aplic? criteriul parsimoniei (de obicei 4-5 clustere omogene în interior ?i eterogene între ele);
- Cu ajutorul Scree-plot aferent distan?elor de agregare (atunci când graficul se aplatizeaz?, sau dac? la trecerea de la g la g+1 grupuri este o cre?tere important?);
- Se ?ine cont s? nu fie outlieri (clustere formate dintr-un singur punct).

 

 

Studiu de caz n R

Crearea matricii de distan?e Click to read  

Dup? importarea setului de date în R, începem cu Analiza Cluster:

 

Choosing the Type of Link Click to read  

 

 

Rezultatul ob?inut cu metoda simpl? de agregare:

 

Aceea?i procedur? este realizat? pentru agregarea complet? ?i pentru agregarea medie.
Rezultatele se vor compara ?i se va alege metoda de agregare cea mai reprezentativ? pentru analiza realizat?.

Comparând cele trei metode, cea mai potrivit? este metoda agreg?rii complete, întrucât separ? cel mai bine clusterele, evitând situa?ia în care ar fi prea mult? omogenitate intern?, în detrimentul eterogenit??ii dintre clustere. Previne de asemenea formarea de outlieri (clustere formate dintr-un singur punct).

Sumar

Sumar Click to read  


Keywords

Unități statistice, Cluster, intra-cluser, inter-cluster, indice de disimilaritate, distanță de agregare, dendogramă.

Objectives/goals:

Scopul acestui modul este de a introduce ?i de a explica tehnica Analizei Cluster.

La finalul acestui modul, vei fi capabil s?:

-    Cuno?ti logica Analizei Cluster

-    Cuno?ti cerin?ele 

-    Realizezi o Analiz? Cluster


Description:

În acest modul de înv??are va fi prezentat? tehnica multidimensional? a Analizei Cluster, cunoscut? ?i sub numele de Analiz? automat? a grupurilor.
Analizele cluster sunt utilizate pentru a grupa unit??ile statistice care au caracteristici comune ?i pentru a le aloca pe categorii care nu sunt definite a priori. Grupurile formate trebuie s? fie cât mai omogene în interior (intra-cluster) ?i cât mai eterogene între ele (inter-cluster).
Aplica?iile acestui tip de analiz? se reg?sesc în mai multe domenii: informatic?, medicin?, biologie, marketing. 
Ultima parte a modulului este dedicat? aplica?iilor analizei cluster cu ajutorul software-ului R. 


Related training material

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI