Analiza cluster
Introducere
Analiza cluster Click to read 
Analiza cluster este o tehnic? de analiz? multivariat? care poate fi aplicat? în multe domenii: de la informatic?, medicin? ?i biologie, la arheologie ?i marketing, oricând este necesar? clasificare unei cantit??i mari de informa?ie în grupuri / clase distincte.
Obiectiv Click to read 
Analiza cluster este utilizat? pentru a grupa unit??i statistice (înregistr?ri) care au caracteristici comune ?i pentru a le aloca în categorii care nu sunt definite a priori. Grupele (clusterele) formate trebuie s? fie cât mai omogene în interior (chiar similar, intra-cluster) ?i cât mai eterogene între ele (chiar diferite, inter-cluster).
Tipuri de variabile Click to read 
În Analiza Cluster se pot utiliza:
- Variabile cantitative, deci numerice;
- Variabile calitative (de exemplu: gen, nivel de educa?ie, status marital, etc.)
Analiza Cluster
Matricea de disimilaritate (sau Matricea de distan?e) Click to read 
Matricea de distan?e, D, este util? pentru a afla câte unit??i statistice sunt diferite unele de altele, este esen?ial? pentru alegerea variabilelor care vor fi luate în calcul.
Matricea de distan?e, de dimensiuni ?×?, esto o matrice simetric? care are valoarea zero pe diagonala principal?, deoarece distan?a dintre un punct ?i el însu?i este zero.
Înainte de a crea matricea de distan?e, matricea de start trebuie standardizat?, astfel încât fiecare variabil? s? aib? aceea?i pondere cu celelalte.
Pentru a ob?ine matricea de distan?e, D, este necesar? calcularea distan?elor dintre puncte. În func?ie de tipul de variabil?, cantitativ? sau calitativ?, cu care se lucreaz?, aceste distan?e pot fi calculate în diferite moduri.
Variabile cantitative
- Distan?a Euclidian?, sensibil? la
valori extreme (outliers).
-Distan?a Manhattan, foarte robust?.
|
|
Variabile calitative
Frecven?ele sunt luate în calcul, matricea de similaritate este creat? ?i concordan?ele ?i discrepan?ele dintre variante sunt calculate.
Dou? tipuri de indici de similaritate:
- Zubin, pentru variabile binare simetrice.
- Jaccard, pentru variabile binare asimetrice.
|
Formarea Clusterelor Click to read 
Datorit? regulii de agregare, putem alege o metod? de agregare pentru a forma clusterele, din urm?toarele
- Agregare simpl?
-Agregare complet?
-Agregare medie
Agregare simpl?:
Grupurile sunt agregate pe baza distan?ei minime dintre observa?ii, aceast? metod? favorizând omogenitatea elementelor fiec?rui grup, în detrimentul diferen?ierii.

Agregare complet?:
Grupurile sunt create conform distan?ei minime maxime dintre puncte, deci mai întâi sunt calculate distan?ele cele mai mari dintre grupuri si apoi sunt alese cele cu distan?ele cele mai mici. Aceast? modalitate de agregare eviden?iaz? diferen?ele dintre grupuri, mai degrab? decât omogenitatea intern?

Agregare medie:
Grupurile sunt formate conform distan?ei medii minime, deci mai întâi se calculeaz? distan?a medie dintre toate observa?iile ?i ulterior dintre aceastea se alege distan?a minim?. Aceast? metod? de agregare este mai pu?in sensibil? la valori extreme, deci va fi mai robust?.

Distan?a de agregare ?i Dendograma Click to read 
Dup? alegerea metodei potrivite de agregare pentru analiz? si pentru formarea grupelor, se poate crea reprezentarea grafic?: Dendograma.
Reprezint? grafic cre?terea nivelurilor de agregare ale clusterelor. Pe axa Ox sunt punctele, iar pe axa Oy sunt reprezentate distan?ele. |
 |
Distan?a dintre clustere tinde s? creasc? ?i din acest motiv trebuie definit? o regul? ”stop” care permite alegerea num?rului de grupuri ce se vor ob?ine
Pentru aceasta, se utilizeaz? tehnica sec?ion?rii arborelui:
- Se observ? cele mai lungi segmente (ramuri);
- Se aplic? criteriul parsimoniei (de obicei 4-5 clustere omogene în interior ?i eterogene între ele);
- Cu ajutorul Scree-plot aferent distan?elor de agregare (atunci când graficul se aplatizeaz?, sau dac? la trecerea de la g la g+1 grupuri este o cre?tere important?);
- Se ?ine cont s? nu fie outlieri (clustere formate dintr-un singur punct).
Studiu de caz n R
Crearea matricii de distan?e Click to read 
Dup? importarea setului de date în R, începem cu Analiza Cluster:

Choosing the Type of Link Click to read 



Rezultatul ob?inut cu metoda simpl? de agregare:

Aceea?i procedur? este realizat? pentru agregarea complet? ?i pentru agregarea medie.
Rezultatele se vor compara ?i se va alege metoda de agregare cea mai reprezentativ? pentru analiza realizat?.

Comparând cele trei metode, cea mai potrivit? este metoda agreg?rii complete, întrucât separ? cel mai bine clusterele, evitând situa?ia în care ar fi prea mult? omogenitate intern?, în detrimentul eterogenit??ii dintre clustere. Previne de asemenea formarea de outlieri (clustere formate dintr-un singur punct).
Sumar
Sumar Click to read 
|