DataScience Training



Analiza Componentelor Principale (ACP)
Feedback form    |       Redare audio    |   Download:    |   


Analiza Componentelor Principale (ACP)

Introducere

Introducere Click to read  

Obiective

Obiectivul acestui modul este de a introduce și explica tehnica Analizei Componentelor Principale.

La finalul acestui modul, vei fi capabil să:

Cunoști logica ACP;

Cunoști criteriile;

Realizezi o ACP.

Definiție

⮚ Analiza componentelor principale (ACP) este o tehnică statistică de analiză multivariată pentru reducerea dimensionalității. În practică, este utilizată pentru seturile de date care conțin multe variabile corelate între ele și se dorește reducerea numărului acestora cu pierderea a cât mai puțină informație

⮚ ACP are obiectivul de a maximiza varianța, calculând ponderea atribuită fiecărei variabile la start pentru a le putea concentra într-una sau mai multe variabile noi (denumite componente principale) care vor fi combinații liniare ale variabilelor de start

 

ACP în viața reală

❖ Științele sociale se confruntă adesea cu cercetări care abundă de indicatori utilizați pentru a înțelege mai bine fenomenul studiat

❖ Un exemplu de situație în care poate fi utilizată ACP poate fi evaluările studenților pentru un anumit curs, pe baza a mai multor variabile. Adesea, un număr mare de variabile este utilizat pentru a evalua gradul de satisfacție al unui curs, cum ar fi evaluarea manualelor, a materialelor suport folosite, gradul de comfort în sălile de clase, orarul, numărul de ore de tutoring, etc. ACP va reduce dimensionalitatea și va simplifica analiza. 

Cerințele ACP

Cerințele Analizei Componentelor Principale Click to read  

Variable Analysis

Pentru a înțelege dacă are sens să se efectueze o analiză a componentelor principale, este important să fie analizate variabilele utilizate pentru a avea o imagine clară asupra caracteristicilor lor. Mai exact, variabilele trebuie să îndepliniească următoarele condiții:

Variabilele trebuie să fie cantitative

ACP este validă doar dacă variabilele sunt numerice.

În cazul în care unitățile de măsură sunt diferite, variabilele trebuie standardizate înainte de a efectua procedura.

Totuși, în unele cazuri tehnica este aplicată si pentru variabile măsurate pe scala ”Likert” și pentru variabile binare. Deși din punct de vedere numeric rezultatele sunt foarte asemănătoare, în aceste cazuri ar fi de preferat utilizarea unor metode alternative

 

- Trebuie să existe o corelație liniară între variabile

 

Prima etapă care trebuie parcursă atunci când este realizată ACP este calculul matricii de varianță/covarianță sau a matricii de corelație Pearson.

ACP este de fapt o tehnică care poate fi aplicată atunci când ipotezele coeficientului de corelație liniară Pearson sunt respectate. 

- Lipsa valorilor extreme (outlier-ilor

✔ Așa cum este cazul pentru toate analizele bazate pe varianță, valorile extreme pot influența rezultatele analizei, în special dacă valorile extreme sunt foarte mari și eșantionul este de dimensiuni mici.
 
✔ În acest sens, este utilă crearea de box-plot-uri și de scatter-plot-uri, din care este posibilă deducerea relațiilor liniare dintre perechi de variabile.

 

Dimensiunea suficient de mare a eșantionului

Nu există o valoare prag unică, dar în general este recomandat să există cel puțin 5-10 unități statistice pentru fiecare variabilă care se dorește a fi inclusă în ACP.
De exemplu, dacă se încearcă sistematizarea a 10 variabile în componente noi, ar fi de dorit ca eșantionul să aibă cel puțin 150 de observații.

 

 

Cum se realizează ACP

Cum se realizează ACP Click to read  

- Verificarea gradului de adecvare a eșantionului

 

Pentru a verifica dacă eșantionul este adecvat pentru ACP, se pot efectua anumite teste, cum ar fi:

✔ Testul Kaiser-Meyer-Olkin (KMO), care stabilește dacă variabilele considerate sunt consistente pentru a putea fi utilizate în analiza componentelor principale. Indicele ia valori înre 0 și 1, iar pentru a face sens într-o analiză a componentelor principale, trebuie să aibă o valoare mai mare de 0.5. 
✔ Testul de sfericitate Bartlett: este un test de testare a ipotezei statistice, având drept ipoteză nulă că matricea de corelație coincide cu matricea identitate. Dacă acesta este cazul, nu are sens să fie realizată ACP, întrucât ar însemna că variabilele nu sunt deloc corelate liniar între ele.
 
- Extragerea componentelor principale

Pentru a înțelege mai bine conceptul, să ne imaginăm că setul de date este ca un oraș necunoscut!
Fiecare componentă principală este o stradă în acest oraș. Dacă am vrea să cunoaștem orașul, câte străzi am vizita? Am începe probabil cu strada centrală (prima componentă principală) și apoi am explora celelalte străzi.
Cât de multe străzi ar trebui să explorăm?

 

 

Pentru a putea spune că am ajuns că cunoaștem suficient de bine orașul, numărul de străzi variază în funcție de mărimea orașului și cât de similare sau de diferite sunt străzile.

În mod similar, numărul de componente care vor fi extrase depinde de numărul de variabile care sunt incluse în analiza componentelor principale și cât de similare sunt acestea între ele. 

De fapt, cu cât sunt mai corelate, cu atât este mai scăzut numărul de componente principale necesare pentru a obține o imagine cât mai fidelă a variabilelor de start. Din contră, dacă gradul de corelare dintre ele este scăzut, va trebui extras un număr mai mare de componente principale pentru a avea informații cât mai precise pentru setul de date.

Cum se realizează ACP: Criteriile Click to read  

- Valori proprii mai mari de 1

Conform acestei reguli, se vor alege componentele care au asociată o valoare proprie mai mare de 1.

Valoarea proprie este un număr care arată varianța explicată de componentă: întrucât inițial varianța explicată de fiecare variabilă este egală cu 1, nu  ar face sens să fie aleasă o componentă (care este o combinație de variabile) cu varianța mai mică de 1. 

 

- Proporția din varianța totală explicată

 

Pe baza acestui criteriu, se păstrează componentele principale care explică cumulat cel puțin 70% din varianța totală.

Mai mult, fiecare componentă extrasă ar trebui să aducă o creștere semnificativă în varianța de ansamblu (de exemplu, cel puțin 5% sau 10% mai mult la variabilitatea explicată).

 

- Scree Plot

Această metodă se bazează pe un grafic în care valorile proprii sunt afișate pe axa verticală și toate componentele posibil a fi extrase sunt pe axa orizontală (care va fi deci egală ca număr cu cel al variabilelor de start). Prin unirea punctelor se va obține o linie frântă care în unele părți va avea o formă concavă, iar în alte părți o formă convexă.

✔ După cum se poate observa din grafic, componentele sunt afișate pe axa Ox, în timp ce valorile proprii sunt pe axa O

✔ Când curba de pe acest grafic formează un "elbow" (o cotitură), este momentul trasării unei linii si se vor lua în considerare numai factorii care se situează deasupra.

✔ Din graficul de mai sus, de exemplu, se poate observa că numărul de puncte deasupra ”elbow” (cotiturii) este 2.

 

- Numirea Componentelor

Ultima parte a ACP constă în atribuirea unor nume componentelor principale găsite.

 

 

 

 

 

Cum se realizează ACP: Studiu de caz Click to read  

Să presupunem că avem următoarele informații dintr-un sondaj privind performanța a 10 companii

ECON.PRO -> profitul economic, diferența dintre randamentul capitalului investit și costul acestuia

CASH -> cash-flow la cifra de afaceri în %

LAVOR.VA -> costul cu factorul muncă pe valoare adăugată, în %

ROE -> randamentul capitalului propriu, profit net pe capitaluri proprii, în %

INDE.CAP -> datorii pe capitaluri propri

FATTURATO: Cifra de afaceri

 

Întrucât datele sunt exprimate în unități de măsură diferite, vom utiliza matricea de date standardizată

După cum am menționat deja, observarea matricii de corelație reprezintă o etapă importantă: dacă toate variabilele ar fi necorelate, nu ar exista motive pentru a continua cu ACP, întrucât ar fi la fel de multe componente ca variabilele observate. Dacă, din contră, unele variabile sunt puternic corelate, ar trebui să luăm în calcul doar una. Tabelul de mai jos arată că ROE este corelată pozitiv cu variabilele Cash-Flow și Profit Economic, dar le luăm în calcul în analiză.

● Trebuie să calculăm valorile proprii, vectorii proprii, analizăm proporția din varianța explicată de valorile proprii cu ajutorul screeplot.

●În acest caz, valorile proprii mai mari de 1 explică 74.9% din varianța inițială

●Se pot extrage 2 Componente, ținând cont că primele două dimensiuni preiau 75% din varianța cumulată.

 

Pentru a înțelege rolul jucat de fiecare variabilă în construirea factorilor, și deci pentru a avea suportul necesar pentru a întelege semnificația axelor, putem analiza comunalitățile, care ne spun cât de mult este corelată fiecare variabilă cu axa.
Se poate observa că variabilele care sunt cel mai corelate sunt cele care determină prima axă. Această axă este cea mai importantă deoarece este cea care sintetizează variabilitatea maximă. Cantitatea de variabilitate explicată este influențată de gradul de corelare dintre variabilele originale. 
Variabilele corelate cu prima axă sugerează că aceasta poate fi interpretată ca un sumar al profitabilității (C1): în partea dreaptă este profitabilitatea ridicată, în partea stângă profitabilitatea scăzută.

A doua axă distinge prin prisma îndatorării (C2): în partea de sus sunt companiile cu o rată ridicată de îndatorare, în partea de jos cele mai puțin îndatorate.

 

După cum se poate observa din graficul de pe slide-ul următor

● În plan Cartezian, cele două componente principale extrase reprezintă axel
● Unitățile (în acest caz, companiile) sunt proiectate pe pla
● Companiile sunt situate mai aproape de factori, în funcție de cât de mult au contribuit la aceștia. 
 

Interpretare: Unele dintre ele sunt poziționate în arii diametral opuse:

În partea dreaptă jos se situează Ferrero, care este cea mai ”sănătoasă” companie, având îndatorare negativă (deci își onorează obligațiile financiare cu capitalul propriu) și o profitabilitate convenabilă.

● În cadranul din dreapta sus găsim compania Plasmon, care deși are un grad de îndatorare ridicat, are și o profitabilitate mare.

● În cadranul din stânga jos se situează companiile care operează în piețele saturate unde sunt lideri; în plus, fiind aproape de orginea axelor, sugerează că își țin situația financiară sub control, având datorii negative dețin rezerve de capital gata să fie utilizate pentru a îndeplini nevoile pieței sau pentru a inția acțiuni pe piață în afaceri foarte profitabile.

● În cele din urmă, în cadranul din stânga sus găsim compania Parmalat: aceasta prezintă cea mai deteriorată situație. Având atât o îndatorare ridicată, cât și profitabilitate negativă, această companie trebuie să își regândeasca sistemul de business pentru a evita riscul de insolvență.

 
 

 

Rezumat

Rezumat Click to read  


Keywords

ACP, Corelație, variabile cantitative, varianță explicată, valori proprii.

Objectives/goals:

Scopul acestui modul este de a introduce și de a explica tehnica Analizei Componentelor Principale.

La finalul acestui modul, vei fi capabil să:

- Cunoști logica ACP

- Cunoști cerințele

- Realizezi o Analiză în Componente Principale

- Realizezi ACP în R utilizând pachetul FactorMineR 


Description:

În acest modul de învățare este prezentată tehnica multidimensională denumită Analiza Componentelor Principale (ACP), al cărei obiectiv este de a reduce dimensionalitatea unui fenomen investigat, păstrând în același timp informația conținută de acesta. Tehnica poate fi aplicată fenomenelor măsurate cu variabile cantitative, deosebindu-se astfel de alte tehnici de reducere a dimensionalității, cum ar fi analiza corespondențelor – cazul bidimensional sau multidimensional, dezvoltată pentru analiza variabilelor calitative.
Ultima parte a acestui modul de învățare va fi dedicată aplicării tehnicii ACP în R.

Bibliography

Pozzolo P., Analisi delle componenti principali: da dove partire, https://paolapozzolo.it/analisi-delle-componenti-principali-criteri/

Gilardone A., Analisi delle componenti principali: 7 passaggi da eseguire https://adrianogilardone.com/analisi-delle-componenti-principali/

Gilardone A., https://www.youtube.com/watch?v=OksC-g4K2gY

Vardanega A., L’Analisi in componenti principali

https://www.agnesevardanega.eu/wiki/r/analisi_esplorativa/analisi_in_componenti_principali

Zakaria Jaadi, A Step-by-Step Explanation of Principal Component Analysis (PCA), https://builtin.com/data-science/step-step-explanation-principal-component-analysis

Ian T. Jolliffe and Jorge Cadima, Principal component analysis: a review and recent developments, https://royalsocietypublishing.org/doi/10.1098/rsta.2015.0202

Science Snippets Blog, What Is Principal Component Analysis (PCA) and How It Is Used?, 2020 https://www.sartorius.com/en/knowledge/science-snippets/what-is-principal-component-analysis-pca-and-how-it-is-used-507186


Related training material

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI