DataScience Training



Introducere în software-ul RStudio
Feedback form    |       Redare audio    |   Download:    |   


Introducere în software-ul RStudio

Introducere

Introducere Click to read  

O scurt? istorie

? Proiectul R s-a n?scut în departamentul de statistic? al Universit??ii din Auckland, Noua Zeeland?
? Fondatorii proiectului sunt Robert Gentleman ?i Ross Ihaka, acum profesori asocia?i
? Proiectul a început în 1991, dar prima lansare a fost în 1996
? Software-ul R este acum considerat cel mai puternic limbaj de calcul statistic din lume
 
Mediul de calcul
 
? Multiplatform? (Windows, MacOS, Linux)
? Open-source (software, manuale, carduri de referin??, toate desc?rcabile de pe site-ul www.r-project.org)
? Are numeroase instrumente integrate pentru analiza datelor;
? V? permite s? implementa?i calculul matriceal;
? U?or de folosit ?i util pentru stocarea datelor;
? Termenul mediu are scopul de a distinge R ca un sistem complet planificat ?i coerent, mai degrab? decât o colec?ie de instrumente extrem de specifice ?i inflexibile.
 
Tehnici de analiz? statistic?

Majoritatea tehnicilor statistice, de la cele mai clasice la cele mai recente, au fost implementate în mediul R.

Doar unele dintre acestea sunt integrate în mediul de baz?, multe altele sunt furnizate sub form? de pachete, prin familia de site-uri numite CRAN (Comprehensive R Archive Network).

 

Comunitate

? O comunitate de peste 2 milioane de utilizatori ?i dezvoltatori ofer? timp ?i expertiz? tehnic? pentru a men?ine, sus?ine ?i dezvolta limbajul R ?i mediul, instrumentele ?i infrastructura
? În inima comunit??ii, grupul R Core, de aproximativ 20 de membri, se ocup? de între?inere ?i ghideaz? evolu?ia R.
? Structura public? oficial? este asigurat? de funda?ia R, o organiza?ie non-profit care asigur? stabilitatea financiar? a R-projectului ?i administreaz? drepturile de autor ale software-ului ?i ale documenta?iei.
 
 
 
Software R

Cum se instaleaz? software-ul R Click to read  

? FDe pe site https://www.r-project.org/
? Click Desc?rca?i R
? Alege?i CRAN-ul dorit (locul fizic din care s? desc?rca?i software-ul)
? Alege?i sistemul de operare pe care s? desc?rca?i programul (Windows, Linux, MacO)
? Face?i clic pe instala?i R pentru prima dat?
? Începe?i desc?rcare
 
Cum arat? R Click to read  
RStudio

S? explor?m RStudio Click to read  

? Cea mai des folosit? ?i cea mai accesibil? interfa?? este RStudio, care poate fi desc?rcat? din https://www.rstudio.com/
? RStudio folose?te o interfa?? u?or de utilizat pentru a facilita utilizarea acesteia;
? Face?i clic pe Desc?rcare (RStudio);
? Alege versiunea gratuit?;
? Începe?i desc?rcarea;
? Mediu de dezvoltare integrat (IDE) pentru R;
? The RStudio working environment consists of 4 windows:
 
Fereastra de cod (scriere//executare scripturi)
Consol? (Linie de comand?//Vizualizare de ie?ire)
Fereastra obiect (lista de obiecte//istoric comenzi)
Fereastra pachetului//diagrame//ajutor
 
 
Fereastra cu mai multe file
 

? Pachete: v? permite s? desc?rca?i pachete care v? permit s? efectua?i analize statistice, cum ar fi Analiza în componentele principale.

Exemplu: face?i clic pe Instalare ?i instala?i pachetul ggplot2

 

? Ajutor: v? permite s? ave?i descrierea pachetului.

Exemplu: Scrie?i ggplot2

 

 

? Fi?iere: v? permite s? accesa?i rapid fi?ierele salvate dup? crearea unui proiect R

 
Crearea unui proiect Click to read  

? Cu RStudio po?i crea un proiect pentru a defini directorul de lucru, a avea toate datele, pachetele ?i codurile în interior
? Pentru a crea un proiect nou, accesa?i meniul din stânga sus ?i selecta?i Fi?ier -> Proiect nou
 
?Pregatirea: ÃŽnc?rcarea datelor
?R poate citi diferite tipuri de date (TXT, CSV, XLS, XLSX, SPSS, STATA), dar cea mai simpl? ?i imediat? modalitate este formatul CSV (Comma Separated Value).
?Pentru a înc?rca un fi?ier CSV, selecta?i Mediu din meniul din dreapta sus -> Import Dataset -> Din fi?ier text, apoi selecta?i directorul ?i fi?ierul.
 
R Notebook ?i R Script Click to read  

 

?Acestea v? permit s? urm?ri?i codurile ?i analizele efectuate în cadrul proiectului R ?i s? le salva?i pe PC pentru consult?ri ulterioare.

 

R Notebook V? permite s? crea?i un raport al unui proiect prin introducerea tuturor pa?ilor, opera?iilor ?i graficelor create.

R Notebook: comenzile trebuie introduse în buc??i speciale (ALT + CTRL + I), descrierile afar?

R Script:

Crea?i un fi?ier în care s? introduce?i toate codurile utile pentru analiza corespunz?toare
Descrierile între # nu sunt considerate de R drept cod care trebuie implementat

Butonul Run Sus Right v? permite s? procesa?i coduri

?Codurile pot fi selectate toate împreun? ?i procesate simultan
 
 

 

Loading a Dataset Click to read  
Descriptive Statistics Click to read  

A first exploration of the distribution of the variables contained in the countries dataset is obtained through the summary command, which must be inserted in the window called Console.
The command structure is:

summary(name dataset / or name variable)

Statistici descriptive: Alte statistici descriptive

Pute?i atribui un nume fiec?rei coloane de interes:
PIL<-nazioni$PIL.pro.capite

Principalii indici de sintez? pentru variabile cantitative sunt:

? Media: mean(PIL) sau mean(nazioni$PIL.pro.capite) sau mean(nazioni[,3])
? Varianza: var(PIL) sau var(nazioni$PIL.pro.capite) sau var(nazioni[,3])
? SQM (Devia?ia standard): sd(PIL) sau (nazioni$PIL.pro.capite) sau sd(nazioni[,3])
Grafice în R (Plot) Click to read  

BOX-PLOT: 
Box-plot descrie o variabil? cantitativ? prin reprezentarea grafic? a minimului, maximului, quartilelor ?i medianei.

? boxplot(nazioni$PIL.pro.capite, main = "Box-Plot del PIL pro capite") 

sau

?boxplot (nazioni[,4], main = "Box-Plot del PIL pro capite")

sau

?boxplot(PIL, main = "Box-plot del PIL pro capite")
DIAGRAMA SCATTER:
?Performing an exploratory analysis on the type of relationship between two variable
?Exemplu din setul de date: analiza?i rela?ia dintre vârsta medie ?i speran?a de via??. Exist? o rela?ie
?1) Nume variabile de interes eta<-nazioni$Et..media

asp<-nazioni$Aspettativa.di.vita

Comanda de preg?tire a graficului de dispersie este:

plot(asp, eta, xlab="Aspettativa di vita", ylab="Età media")

DIAGRAM? SCATTER: Ce po?i spune? 

Din graficul de dispersie pare s? existe o rela?ie între variabilele Speran?a de via?? ?i Vârsta medie.

Mai exact, pe m?sur? ce vârsta medie cre?te, speran?a de via?? cre?te.

Analiza corela?iei:  cor(asp,eta) = 0,67

 

CORELATIE MODERATA

CALITATIV

?ÃŽnc?rca?i setul de date ANAG
?Denumi?i coloana Gen ->  sesso<-ANAG$Sesso
?Pentru variabilele calitative, prima descriere se refer? la analiza distribu?iei frecven?ei.
 
Crea?i distribu?ia de frecven?? pentru variabil? «sesso» ->  table(sesso)
 
PL?CINT?
 
?Un mod de reprezentare grafic? a distribu?iei caracterelor calitative este diagrama circular?, ale c?rei segmente sunt propor?ionale cu frecven?ele fiec?rei categorii

x<-table(sesso)

?Diagram? pl?cint? f?r? procente:

pie(x, main = "Grafico a torta sul sesso")

 

GRAFICUL  PL?CINT?  F?R?  PROCENTE

GRAFICUL PL?CINT? CU PROCENTE

labels <- c("Femmina", "Maschio", "N/A")  #ADD LABELS

n<-lenght(ANAG)  #IMPUTATION OF SAMPLE NUMBERS

pct <- round(x/n*100) #CALCULATION OF PERCENTAGES

lbls <- paste(labels, pct) # ADD PERCENTAGES TO LABELS

 

lbls <- paste(lbls,"%",sep="") # ADDS THE SIMBOL % TO LABELS

pie(x,labels = lbls, col=rainbow(length(lbls)),main= "Grafico a torta del genere dei rispondenti")

 

GRAFICUL CU BARE

?UUtil pentru caractere calitative ?i pentru a eviden?ia frecven?ele absolute ale fiec?rei variabile. 

X<-table(sesso)

barplot(x, main="Genere dei rispondenti", border="blue", ylab="Frequenze Assolute")

GRAFICUL CU BARE: Calcula?i frecven?ele relative

Description:

  • Proiectul R s-a n?scut în departamentul de statistic? al Universit??ii din Auckland, Noua Zeeland?;
  • Fondatorii proiectului sunt Robert Gentleman ?i Ross Ihaka, acum profesori asocia?i;
  • Proiectul a început în 1991, dar prima lansare a fost în 1996;
  • Software-ul R este acum considerat cel mai puternic limbaj de calcul statistic din lume;


Related training material

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI