DataScience Training



Einführung in RStudio
Feedback form    |           |   Download:    |   


Einführung in RStudio

Einleitung

Einleitung Click to read  

die Geschichte

Projekt R wurde in der Statistikabteilung der University of Auckland in Neuseeland geboren.
Die Gründer des Projekts sind Robert Gentleman und Ross Ihaka, die heute außerordentliche Professoren sind.
Das Projekt begann im Jahr 1991, aber die erste Veröffentlichung erfolgte im Jahr 1996.
Die R-Software gilt heute als eine der leistungsstärksten statistischen Programmiersprachen der Welt.
 
Die Rechnerumgebung
 
Plattformübergreifend (Windows, MacOS, Linux);
Open Source (Software, Handbücher, Referenzkarten, alles zum Download auf der Website www.r-project.org verfügbar);
Verfügt über zahlreiche integrierte Tools zur Datenanalyse;
Ermöglicht die Implementierung von Matrixkalkulationen;
Leicht manipulierbar und nützlich zur Datenspeicherung;
Der Begriff "Umgebung" soll R als ein vollständig geplantes und kohärentes System kennzeichnen, anstatt eine Sammlung äußerst spezifischer und unflexibler Werkzeuge zu sein.
 
Statistische Analysetechniken

Die meisten statistischen Techniken, von den klassischsten bis hin zu den neuesten, wurden in der R-Umgebung implementiert.

Nur einige davon sind in die grundlegende Umgebung integriert, viele weitere werden in Form von Paketen (packages) bereitgestellt, über die Website-Familie namens CRAN (Comprehensive R Archive Network).

CommEinheity

 Eine Gemeinschaft von über 2 Millionen Benutzer:innen und Entwickler:innen stellt Zeit und technische Expertise zur Verfügung, um die R-Sprache und -Umgebung, Tools und Infrastruktur zu pflegen, zu unterstützen und weiterzuentwickeln.
 Im Zentrum dieser Gemeinschaft steht die R Kern-Gruppe, bestehend aus etwa 20 Mitgliedern, die sich um die Wartung kümmert und die Weiterentwicklung von R lenkt.
 Die offizielle öffentliche Struktur wird von der R-Stiftung bereitgestellt, einer gemeinnützigen Organisation, die die finanzielle Stabilität des R-Projekts gewährleistet und das Urheberrecht der Software und Dokumentation verwaltet.
 
 
 
Software R

Wie man die R-Software installiert Click to read  

Von der Website https://www.r-project.org/
Wir klicken auf "Download R".
Dann wählen wir das gewünschte CRAN (Comprehensive R Archive Network) aus, also den physischen Standort, von dem aus wir die Software herunterladen möchten.
Wir wählen das Betriebssystem aus, auf dem wir das Programm herunterladen möchten (Windows, Linux, MacOS).
Dann klicken wir auf "Install R for the first time" (R zum ersten Mal installieren) und
Wir starten den Download
 
Wie R aussieht Click to read  
RStudio

RStudio erkunden Click to read  

Die am häufigsten verwendete und zugänglichste Benutzeroberfläche ist RStudio, die von der Website https://www.rstudio.com/ heruntergeladen werden kann.
RStudio verwendet eine benutzerfreundliche Oberfläche, um die Nutzung zu erleichtern.
Wir klicken auf "Download" (RStudio).
Wir wählen die kostenlose Version aus.
Wir starten den Download.
Integrierte Entwicklungs Umgebung (IDE) für R;
Die Arbeitsumgebung von RStudio besteht aus 4 Fenstern:

Code Fenster (write//execute scripts)

Console (Command Line//Output View)

Object Fenster (object list//command history)

Package Fenster//charts//help

 
Mehrfensteransicht
 
Packages (Pakete): ermöglicht das Herunterladen von Paketen, mit denen statistische Analysen durchgeführt werden können, wie beispielsweise die Hauptkomponentenanalyse.

Beispiel: Wir klicken auf "Install" und installieren das Paket "ggplot2".

Help (Hilfe): zeigt die Beschreibung des Pakets an.

Beispiel: Wir geben ggplot2 ein

Files (Dateien): ermöglicht uns den schnellen Zugriff auf gespeicherte Dateien nach Erstellung eines R-Projekts.
Erstellung eines Projektes Click to read  

Mit RStudio können wir ein Projekt erstellen, um das Arbeitsverzeichnis festzulegen und alle Daten, Pakete und Codes darin zu haben.
Um ein neues Projekt zu erstellen, gehen wir zum Menü oben links und wählen Datei -> Neues Projekt
 
Getting Started: Daten Laden
R kann verschiedene Datenformate lesen (TXT, CSV, XLS, XLSX, SPSS, STATA), aber der einfachste und schnellste Weg ist das CSV-Format (Kommagetrennte Werte).
Um eine CSV-Datei hochzuladen, wählen wir "Umgebung" im Menü oben rechts aus -> Import Dataset -> From Text File. Wir wählen dann das Verzeichnis und die Datei aus.
 
 
R Notebook & R Script Click to read  

 

R Notebook und R Script ermöglichen es uns, den Überblick über den Code und Analysen innerhalb des R-Projekts zu behalten und sie auf dem Computer zu speichern.
 

R Notebook ermöglicht es uns, einen Bericht über ein Projekt zu erstellen, indem wir alle Schritte, Operationen und erstellten Grafiken eingeben.
 

R Notebook: Die Befehle müssen innerhalb eines speziellen Codeblocks (ALT + STRG + I) eingefügt werden, während die Beschreibungen außerhalb stehen.

R Script:

Erstellen wir eine Datei, in der alle für die entsprechende Analyse nützlichen Codes eingefügt werden können. Beschreibungen zwischen # werden von R nicht als auszuführender Code betrachtet.

Mit Klick auf Run können wir Code ausführen

 Die Codes können alle gleichzeitig ausgewählt und gleichzeitig ausgeführt werden.
 
 

 

Einlesen eines Datensatzes Click to read  
Deskriptive Statistik "Summary“ (Zusammenfassung)  Click to read  

Eine erste Einsicht in der Verteilung der Variablen im Länder-Datensatz wird durch den Befehl "summary" erzielt, der im Fenster namens "Konsole" eingefügt werden muss.

Die Befehlsstruktur lautet:

summary(name dataset / or name variable)

 

Andere Deskriptive Statistik   

Sie können jedem Spaltennamen einen Namen zuweisen:
PIL<-nazioni$PIL.pro.capite

Die wichtigsten Kennzahlen für quantitative Variablen sind:

Median: mean(PIL) oder mean(nazioni$PIL.pro.capite) oder mean(nazioni[,3])
Varianz: var(PIL) oder var(nazioni$PIL.pro.capite) oder var(nazioni[,3])
Standardabweichung: sd(PIL) oder (nazioni$PIL.pro.capite) oder sd(nazioni[,3])
Grafiken in R Click to read  

BOX-PLOT:

Das Boxplot beschreibt eine quantitative Variable durch die grafische Darstellung von Minimum, Maximum, Quartilen und Median.

boxplot(nazioni$PIL.pro.capite, main = "Box-Plot del PIL pro capite")

oder

boxplot (nazioni[,4], main = "Box-Plot del PIL pro capite")

oder

boxplot(PIL, main = "Box-plot del PIL pro capite")
SCATTER/Streudiagramm:
 Durchführung einer explorativen Analyse zur Feststellung von Abhängigkeiten zwischen zwei Variablen
 Beispiel aus dem Datensatz: Analyse der Anhängigkeit zwischen durchschnittlichem Alter und Lebenserwartung. Gibt es eine Abhängigkeit?
1) Nenne relevante Variablen
eta<-nazioni$Et..media

asp<-nazioni$Aspettativa.di.vita

Der Befehl um ein Streudiagram zu erstellen lautet:

plot(asp, eta, xlab="Aspettativa di vita", ylab="Età media")

Streudiagram : Was können wir daraus schließen?

Aus dem Streudiagramm scheint es eine Beziehung zwischen den Variablen Lebenserwartung und Durchschnittsalter zu geben. 

Konkret steigt die Lebenserwartung mit zunehmendem Durchschnittsalter.
 

Korrelationsanalyse:
cor(asp,eta) = 0,67

 

MODERATE KORRELATION

QUALITATIVE

Wir laden den Datensatz ANAG
Wir benennen die Spalte ‘Gender’ (Geschlecht) ->  sesso<-ANAG$Sesso
Für qualitative Variablen erstellen wir für eine erste Übersicht eine Häufigkeitsverteilung.

Für diese Variable erstellen wir daher die Häufigkeitsverteilung mit «sesso» ->  table(sesso)
 
KREISDIAGRAMM/ PIE CHART
 
Eine Möglichkeit der grafischen Darstellung der Verteilung qualitativer Merkmale ist das Kreisdiagramm, dessen Segmente proportional zu den Häufigkeiten jeder Kategorie sind.

x<-table(sesso)

Kreisdiagramm ohne Prozentsätze:

pie(x, main = "Kreisdiagramm für die Variable Geschlecht")

 

Kreisdiagramm ohne Prozentwerte
 

KREISDIAGRAMM MIT PROZENTSÄTZEN:

labels <- c("Femmina", "Maschio", "N/A")  #Labels hinzufügen

n<-length(ANAG)  #Imputation der Stichprobenzahlen

pct <- round(x/n*100) #Berechnung der Prozentsätze

lbls <- paste(labels, pct) #Prozentwerte den Labels hinzufügen

lbls <- paste(lbls,"%",sep="") #Labels das Symbol % hinzufügen

pie(x,labels = lbls, col=rainbow(length(lbls)),main= "Kreisdiagramm zum Geschlecht der Befragten")
 

BALKENDIAGRAMM/ BAR CHART

Nützlich für qualitative Variablen und um die absoluten Häufigkeiten jeder Variable hervorzuheben.

X<-table(sesso)

barplot(x, main="Geschlecht der Befragten", border="blue", ylab="Absolute Häufigkeiten")

BAR CHART: Berechnung der relativen Häufigkeiten

 

 

 

 

 
 
 
Description:

This course presents the concept of RStudio Software. We will learn the history the computing environment Analysis Techniques Community, how to install it, and we will explore RStudio Creating a Project Notebook.


Related training material

Partner

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI