DataScience Training



Introduzione al software RStudio

Introduzione al software RStudio

Introduzione

Introduzione Click to read  

Sezione 1: Un po’ di Storia

- Il Progetto R nasce nel dipartimento di statistica dell’Università di Auckland, in Nuova Zelanda;

- I fondatori del progetto sono Robert Gentleman e Ross Ihaka, oggi professori associati;

- Il progetto è avviato nel 1991, ma la prima release è del 1996;

- Il software R è oggi considerato il linguaggio di calcolo statistico più potente al mondo;

 
L’ Ambiente di Calcolo
 
- Multipiattaforma (Windows, MacOS, Linux);
- Open-source (software, manuali, reference card, tutti scaricabili dal sito www.r-project.org);
- Presenta numerosi tool integrati per l’analisi dei dati;
- Consente di implementare il calcolo matriciale;
- Facilmente manipolabile ed utile per l’immagazzinamento dei dati;
- Il termine ambiente è inteso a distinguere R come un sistema completamente pianificato e coerente, piuttosto che una collezione di strumenti estremamente specifici e poco flessibili.
 
Tecniche di Analisi Statistica

La maggior parte delle tecniche statistiche, dalle più classiche alle più recenti, ha trovato implementazione in ambiente R.

Solo alcune di queste sono integrate nell'ambiente di base, moltissime altre sono fornite in forma di pacchetti (package), attraverso la famiglia di siti internet che prende il nome di CRAN (Comprehensive R Archive Network).

Community

 Una community di oltre 2 milioni di utenti e sviluppatori mette a disposizione tempo e competenze tecniche per il mantenimento, il supporto e lo sviluppo del linguaggio R e dell'ambiente, degli strumenti e dell'infrastruttura.

Al centro della community, il gruppo R Core, di circa 20 membri, cura il mantenimento e guida l'evoluzione di R.

 La struttura pubblica ufficiale è fornita dalla R foundation, una organizzazione no-profit che assicura la stabilità finanziaria di R-project e amministra il copyright del software e della documentazione.

 
 
 
il Software R

Come installare il software R Click to read  

2. Cliccare su Download R
3. Scegliere il CRAN che si desidera (il luogo fisico da cui scaricare il software)
4. Scegliere il sistema operativo su cui scaricare il programma (Windows, Linux, MacOS)
5. Cliccare su install R for the first time
6. Avviare il download
 
Come si presenta R Click to read  
RStudio

Esploriamo RStudio Click to read  

-  L’interfaccia più comunemente usata e maggiormente accessibile è RStudio, scaricabile dal sito https://www.rstudio.com/

RStudio utilizza un’interfaccia user-friendly per agevolarne la fruizione;

Cliccare su Download (RStudio);

Scegliere la versione free;

Avviare il download;

 

Ambiente di sviluppo integrato (IDE-Integrated Development Environment) per R;

L'ambiente di lavoro RStudio è costituito da 4 finestre:

1.Finestra del codice (scrivere//eseguire script)
2.Console (riga di comando//visualizzazione output)
3.Finestra degli oggetti (elenco oggetti//cronologia comandi)
4.Finestra dei pacchetti//grafici//help
 
Finestra Multi Tab
 
Packages: permette di scaricare dei pacchetti che consentono di effettuare analisi statistiche, come l’Analisi in Componenti Principali.

Esempio: cliccare su Install ed installare il pacchetto ggplot2

Help: permette di avere la descrizione del pacchetto.

Esempio: digitare ggplot2

Files: allows you to quickly access saved files after creating an R project
Files: consente di avere accesso rapidamente ai file salvati dopo aver creato un progetto di R
 
Creazione di un Progetto Click to read  

Con RStudio è possibile creare un progetto in modo da definire la directory di lavoro, avere all'interno tutti i dati, i pacchetti e i codici.
Per creare un nuovo progetto, andare sul menu in alto a sinistra e selezionare File -> New Project
 
Per Iniziare: caricamento dei dati

R può leggere diverse tipologie di dati (TXT, CSV, XLS, XLSX, SPSS, STATA), ma il modo più semplice e immediato è il formato CSV (Comma Separated Value).

Per caricare un le CSV selezionare dal menu in altro a destra Environment -> Import Dataset -> From Text File, poi selezionare la directory e il file.

 
R Notebook & R Script Click to read  

Permettono di tenere traccia dei codici e delle analisi svolte all’interno del progetto R e di salvarle sul pc per le successive consultazioni.

R Notebook Permette di creare un report di un progetto inserendo tutti i passaggi, le operazioni ed i grafici creati.

R Notebook: I comandi devono essere inseriti all’interno di appositi chunk (ALT + CTRL + I), le descrizioni fuori

R Script:

Creare un file dove inserire tutti i codici utili alle opportune analisi
Le descrizioni tra # non sono considerate da R come un codice da implementare
Il tasto in alto a destra Run consente di processare i codici

I codici possono essere selezionati tutti insieme e processati contemporaneamente
 
Caricamento di un Dataset Click to read  
Statistica Descrittiva “Summary” Click to read  

Una prima esplorazione della distribuzione delle variabili contenute nel dataset nazioni, è ottenuta attraverso il comando summary, che va inserito nella finestra chiamata Console.

La struttura del comando è:

summary(name dataset / or name variable)

Altre statistiche descrittive 

È possibile assegnare un nome a ciascuna colonna di interesse:

PIL<-nazioni$PIL.pro.capite

I principali indici di sintesi per variabili quantitative sono:

Media: mean(PIL) oppure mean(nazioni$PIL.pro.capite) oppure mean(nazioni[,3])
Varianza: var(PIL) oppure var(nazioni$PIL.pro.capite) oppure var(nazioni[,3])
SQM (Deviazione Standard): sd(PIL) oppure (nazioni$PIL.pro.capite) oppure sd(nazioni[,3])
Grafici in R (Plot) Click to read  

BOX-PLOT:

Il box-plot descrive una variabile quantitativa attraverso la rappresentazione grafica del minimo, massimo, dei quartili e della mediana.

boxplot(nazioni$PIL.pro.capite, main = "Box-Plot del PIL pro capite")

oppure

boxplot (nazioni[,4], main = "Box-Plot del PIL pro capite")

oppure

boxplot(PIL, main = "Box-plot del PIL pro capite")
DIAGRAMMA A DISPERSIONE:
Porre un’analisi esplorativa sul tipo di relazione tra due variabili
Esempio dal dataset: analizzare il rapporto tra età media e aspettativa di vita. Esiste una relazione?
 
1) Denominare le variabili di interesse

eta<-nazioni$Et..media

asp<-nazioni$Aspettativa.di.vita

Il comando per predisporre il diagramma a dispersione (o scatterplot) è:

plot(asp, eta, xlab="Aspettativa di vita", ylab="Età media")

DIAGRAMMA A DISPERSIONE: Cosa si può dire?

Dallo scatterplot appare esserci una relazione tra le variabili Aspettativa di vita e Età media.

Nello specifico, al crescere dell’età media cresce l’aspettativa di vita.

Analisi della correlazione:

cor(asp,eta) = 0,67

 

CORRELAZIONE MODERATA

VARIABILI QUALITATIVE

Caricare dataset ANAG
Denominare la colonna Sesso ->  sesso<-ANAG$Sesso
Per le variabili qualitative, la prima descrizione riguarda l'analisi della distribuzione di frequenza.

Creare la distribuzione di frequenza per la variabile «sesso» ->  table(sesso)

 
GRAFICO A TORTA
 
Una modalità di rappresentazione grafica della distribuzione di caratteri qualitativi è il diagramma a torta (o piechart), i cui spicchi sono proporzionali alle frequenze di ciascuna categoria.

x<-table(sesso)

Grafico a torta senza percentuali:

pie(x, main = "Grafico a torta sul sesso")

 

GRAFICO A TORTA SENZA

PERCENTUALI

GRAFICO A TORTA CON  PERCENTUALI

labels <- c("Femmina", "Maschio", "N/A")  #AGGIUNGERE ETICHETTE

n<-lenght(ANAG)  #IMPUTAZIONE NUMEROSITA’ DEL CAMPIONE

pct <- round(x/n*100) #CALCOLO DELLE PERCENTUALI

lbls <- paste(labels, pct) # AGGIUNGE LE PERCENTUALI ALLE ETICHETTE

lbls <- paste(lbls,"%",sep="") # AGGIUNGE IL SIMBOLO % ALLE ETICHETTE

pie(x,labels = lbls, col=rainbow(length(lbls)),main= "Grafico a torta del genere dei rispondenti")

 

DIAGRAMMA A BARRE

Utile per caratteri qualitativi e per evidenziare le frequenze assolute di ciascuna variabile.

X<-table(sesso)

barplot(x, main="Genere dei rispondenti", border="blue", ylab="Frequenze Assolute")

DIAGRAMMA A BARRE: Calcolare le frequenze relative

 

 

 

 

 
 
 
Description:

Questo corso presenta il concetto di software RStudio. Impareremo la storia dell'ambiente di calcolo Analysis Techniques Community, come installarlo ed esploreremo RStudio creando un Project Notebook.


Related training material

Partner

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI