DataScience Training



Introducere în software-ul RStudio
Feedback form    |       Redare audio    |   Download:    |   


Introducere în software-ul RStudio

Introducere

Introducere Click to read  

O scurtă istorie

● Proiectul R s-a născut în departamentul de statistică al Universității din Auckland, Noua Zeelandă
● Fondatorii proiectului sunt Robert Gentleman și Ross Ihaka, acum profesori asociați
● Proiectul a început în 1991, dar prima lansare a fost în 1996
● Software-ul R este acum considerat cel mai puternic limbaj de calcul statistic din lume
 
Mediul de calcul
 
● Multiplatformă (Windows, MacOS, Linux)
● Open-source (software, manuale, carduri de referință, toate descărcabile de pe site-ul www.r-project.org)
● Are numeroase instrumente integrate pentru analiza datelor;
● Vă permite să implementați calculul matriceal;
● Ușor de folosit și util pentru stocarea datelor;
● Termenul mediu are scopul de a distinge R ca un sistem complet planificat și coerent, mai degrabă decât o colecție de instrumente extrem de specifice și inflexibile.
 
Tehnici de analiză statistică

Majoritatea tehnicilor statistice, de la cele mai clasice la cele mai recente, au fost implementate în mediul R.

Doar unele dintre acestea sunt integrate în mediul de bază, multe altele sunt furnizate sub formă de pachete, prin familia de site-uri numite CRAN (Comprehensive R Archive Network).

 

Comunitate

⮚ O comunitate de peste 2 milioane de utilizatori și dezvoltatori oferă timp și expertiză tehnică pentru a menține, susține și dezvolta limbajul R și mediul, instrumentele și infrastructura
⮚ În inima comunității, grupul R Core, de aproximativ 20 de membri, se ocupă de întreținere și ghidează evoluția R.
⮚ Structura publică oficială este asigurată de fundația R, o organizație non-profit care asigură stabilitatea financiară a R-projectului și administrează drepturile de autor ale software-ului și ale documentației.
 
 
 
Software R

Cum se instalează software-ul R Click to read  

● FDe pe site https://www.r-project.org/
● Click Descărcați R
● Alegeți CRAN-ul dorit (locul fizic din care să descărcați software-ul)
● Alegeți sistemul de operare pe care să descărcați programul (Windows, Linux, MacO)
● Faceți clic pe instalați R pentru prima dată
● Începeți descărcare
 
Cum arată R Click to read  
RStudio

Să explorăm RStudio Click to read  

⮚ Cea mai des folosită și cea mai accesibilă interfață este RStudio, care poate fi descărcată din https://www.rstudio.com/
⮚ RStudio folosește o interfață ușor de utilizat pentru a facilita utilizarea acesteia;
⮚ Faceți clic pe Descărcare (RStudio);
⮚ Alege versiunea gratuită;
⮚ Începeți descărcarea;
⮚ Mediu de dezvoltare integrat (IDE) pentru R;
⮚ The RStudio working environment consists of 4 windows:
 
Fereastra de cod (scriere//executare scripturi)
Consolă (Linie de comandă//Vizualizare de ieșire)
Fereastra obiect (lista de obiecte//istoric comenzi)
Fereastra pachetului//diagrame//ajutor
 
 
Fereastra cu mai multe file
 

⮚ Pachete: vă permite să descărcați pachete care vă permit să efectuați analize statistice, cum ar fi Analiza în componentele principale.

Exemplu: faceți clic pe Instalare și instalați pachetul ggplot2

 

⮚ Ajutor: vă permite să aveți descrierea pachetului.

Exemplu: Scrieți ggplot2

 

 

⮚ Fișiere: vă permite să accesați rapid fișierele salvate după crearea unui proiect R

 
Crearea unui proiect Click to read  

⮚ Cu RStudio poți crea un proiect pentru a defini directorul de lucru, a avea toate datele, pachetele și codurile în interior
⮚ Pentru a crea un proiect nou, accesați meniul din stânga sus și selectați Fișier -> Proiect nou
 
Pregatirea: Încărcarea datelor
R poate citi diferite tipuri de date (TXT, CSV, XLS, XLSX, SPSS, STATA), dar cea mai simplă și imediată modalitate este formatul CSV (Comma Separated Value).
Pentru a încărca un fișier CSV, selectați Mediu din meniul din dreapta sus -> Import Dataset -> Din fișier text, apoi selectați directorul și fișierul.
 
R Notebook și R Script Click to read  

 

Acestea vă permit să urmăriți codurile și analizele efectuate în cadrul proiectului R și să le salvați pe PC pentru consultări ulterioare.

 

R Notebook Vă permite să creați un raport al unui proiect prin introducerea tuturor pașilor, operațiilor și graficelor create.

R Notebook: comenzile trebuie introduse în bucăți speciale (ALT + CTRL + I), descrierile afară

R Script:

Creați un fișier în care să introduceți toate codurile utile pentru analiza corespunzătoare
Descrierile între # nu sunt considerate de R drept cod care trebuie implementat

Butonul Run Sus Right vă permite să procesați coduri

Codurile pot fi selectate toate împreună și procesate simultan
 
 

 

Loading a Dataset Click to read  
Descriptive Statistics Click to read  

A first exploration of the distribution of the variables contained in the countries dataset is obtained through the summary command, which must be inserted in the window called Console.
The command structure is:

summary(name dataset / or name variable)

Statistici descriptive: Alte statistici descriptive

Puteți atribui un nume fiecărei coloane de interes:
PIL<-nazioni$PIL.pro.capite

Principalii indici de sinteză pentru variabile cantitative sunt:

⮚ Media: mean(PIL) sau mean(nazioni$PIL.pro.capite) sau mean(nazioni[,3])
⮚ Varianza: var(PIL) sau var(nazioni$PIL.pro.capite) sau var(nazioni[,3])
⮚ SQM (Deviația standard): sd(PIL) sau (nazioni$PIL.pro.capite) sau sd(nazioni[,3])
Grafice în R (Plot) Click to read  

BOX-PLOT: 
Box-plot descrie o variabilă cantitativă prin reprezentarea grafică a minimului, maximului, quartilelor și medianei.

⮚ boxplot(nazioni$PIL.pro.capite, main = "Box-Plot del PIL pro capite") 

sau

boxplot (nazioni[,4], main = "Box-Plot del PIL pro capite")

sau

boxplot(PIL, main = "Box-plot del PIL pro capite")
DIAGRAMA SCATTER:
Performing an exploratory analysis on the type of relationship between two variable
Exemplu din setul de date: analizați relația dintre vârsta medie și speranța de viață. Există o relație
1) Nume variabile de interes eta<-nazioni$Et..media

asp<-nazioni$Aspettativa.di.vita

Comanda de pregătire a graficului de dispersie este:

plot(asp, eta, xlab="Aspettativa di vita", ylab="Età media")

DIAGRAMĂ SCATTER: Ce poți spune? 

Din graficul de dispersie pare să existe o relație între variabilele Speranța de viață și Vârsta medie.

Mai exact, pe măsură ce vârsta medie crește, speranța de viață crește.

Analiza corelației:  cor(asp,eta) = 0,67

 

CORELATIE MODERATA

CALITATIV

Încărcați setul de date ANAG
Denumiți coloana Gen ->  sesso<-ANAG$Sesso
Pentru variabilele calitative, prima descriere se referă la analiza distribuției frecvenței.
 
Creați distribuția de frecvență pentru variabilă «sesso» ->  table(sesso)
 
PLĂCINTĂ
 
Un mod de reprezentare grafică a distribuției caracterelor calitative este diagrama circulară, ale cărei segmente sunt proporționale cu frecvențele fiecărei categorii

x<-table(sesso)

Diagramă plăcintă fără procente:

pie(x, main = "Grafico a torta sul sesso")

 

GRAFICUL  PLĂCINTĂ  FĂRĂ  PROCENTE

GRAFICUL PLĂCINTĂ CU PROCENTE

labels <- c("Femmina", "Maschio", "N/A")  #ADD LABELS

n<-lenght(ANAG)  #IMPUTATION OF SAMPLE NUMBERS

pct <- round(x/n*100) #CALCULATION OF PERCENTAGES

lbls <- paste(labels, pct) # ADD PERCENTAGES TO LABELS

 

lbls <- paste(lbls,"%",sep="") # ADDS THE SIMBOL % TO LABELS

pie(x,labels = lbls, col=rainbow(length(lbls)),main= "Grafico a torta del genere dei rispondenti")

 

GRAFICUL CU BARE

UUtil pentru caractere calitative și pentru a evidenția frecvențele absolute ale fiecărei variabile. 

X<-table(sesso)

barplot(x, main="Genere dei rispondenti", border="blue", ylab="Frequenze Assolute")

GRAFICUL CU BARE: Calculați frecvențele relative

Description:

  • Proiectul R s-a născut în departamentul de statistică al Universității din Auckland, Noua Zeelandă;
  • Fondatorii proiectului sunt Robert Gentleman și Ross Ihaka, acum profesori asociați;
  • Proiectul a început în 1991, dar prima lansare a fost în 1996;
  • Software-ul R este acum considerat cel mai puternic limbaj de calcul statistic din lume;


Related training material

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI