Datenkodierung

Die Kodierung kategorialer Daten macht sie für Machine-Learning-Algorithmen nutzbar. R kodiert Faktoren zwar intern, aber für die Entwicklung eigener Modelle ist eine explizite Kodierung nötig.

In dieser Übung baust du zuerst ein lineares Modell mit lm() und entwickelst anschließend schrittweise dein eigenes Modell.

Beim One-Hot-Encoding wird für jedes Level eine eigene Spalte erstellt.

Beachte, dass sich eine der Spalten aus den anderen ableiten lässt (z. B. bedeuten 0 in den Spalten "B" und "C" eine 1 in Spalte "A"). Du kannst also für die lineare Regression die erste Spalte weglassen. Wir schauen uns lineare Modelle im nächsten Kapitel noch genauer an.

Für One-Hot-Encoding kannst du dummyVars() aus dem Paket caret verwenden.

Dazu zuerst den Encoder erstellen und dann den Datensatz transformieren:

encoder <- dummyVars(~ category, data = df)
predict(encoder, newdata = df)

Die vollständigen Fälle des Umfragedatensatzes aus dem MASS-Paket sind als survey verfügbar. Das Paket caret wurde bereits geladen.

Diese Übung ist Teil des Kurses

Statistik-Interviewfragen in R üben

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Fit a linear model
lm(___ ~ Exer, data = ___)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Statistik-Interviewfragen in R üben

Hohe SchwierigkeitSchwierigkeitsgrad

4.7+

Kurs kostenlos starten

Willst du deine Chancen erhöhen, dein Bewerbungsgespräch zu rocken? Dann frische dein Wissen in Wahrscheinlichkeitsrechnung auf. In diesem Kapitel werfen wir Würfel und üben Würfe, um Wahrscheinlichkeiten anhand von Beispielen aus dem Alltag zu erklären.

Exercise 1: Diskrete Verteilungen Exercise 2: Wahrscheinlichkeitsfunktionen Exercise 3: Bernoulli-Versuche Exercise 4: Binomialverteilung Exercise 5: Stetige Verteilungen Exercise 6: Gleichverteilung Exercise 7: Form der Normalverteilung Exercise 8: Stichprobe aus der Normalverteilung Exercise 9: Zentraler Grenzwertsatz Exercise 10: Gesetz der großen Zahlen Exercise 11: Zentrales Grenzwerttheorem simulieren

Wenn dich die Stellenbeschreibung anspricht, wiederhole vor dem Gespräch die beschreibende Statistik. In diesem Kapitel übst du explorative Datenanalyse (EDA) anhand von Erdgaspreisen und Daten aus einer Umfrageanalyse.

Exercise 1: Deskriptive Statistik Exercise 2: Lagemaße Exercise 3: Streuungsmaße Exercise 4: Kategoriale Daten Exercise 5: Umfrageanalyse Exercise 6: Datenkodierung

Aktuelle Übung

Exercise 7: Zeitreihen Exercise 8: Zeitreihenobjekt Exercise 9: Zeitreihen aufbereiten Exercise 10: Hauptkomponentenanalyse Exercise 11: PCA – Rotation Exercise 12: PCA – Dimensionsreduktion

Geh selbstbewusst in dein Bewerbungsgespräch, nachdem du Konfidenzintervalle wiederholt hast. Wir besprechen den t-Test, ANOVA und Normalitätstests, damit du auf statistikbasierte Coding-Fragen vorbereitet bist.

Exercise 1: Normalitätstests Exercise 2: Shapiro-Wilk-Test Exercise 3: Q-Q-Plot Exercise 4: Schlussfolgerungen für einen Mittelwert Exercise 5: Konfidenzintervall Exercise 6: Einstichproben-t-Test Exercise 7: Zwei Mittelwerte vergleichen Exercise 8: Zweistichproben-t-Test Exercise 9: Gepaarter Test Exercise 10: ANOVA Exercise 11: Gruppen vergleichen Exercise 12: ANOVA für Pflanzenwachstum

Plant dein potenzieller Arbeitgeber, deine R-Skills zu testen? Sorge dafür, dass du vorbereitet bist, und übe die Modellevaluation im Voraus. In diesem Kapitel passen wir lineare und logistische Regressionsmodelle an und bewerten sie mit verschiedenen biomedizinischen Datensätzen. Am Ende dieses Kapitels bist du bestens gerüstet, um jede Frage der Interviewer souverän zu beantworten!

Exercise 1: Kovarianz und Korrelation Exercise 2: Kovarianz per Hand Exercise 3: Lineare Beziehung Exercise 4: Nichtlineare Beziehung Exercise 5: Lineares Regressionsmodell Exercise 6: Lineare Modelle anpassen Exercise 7: Vorhersagen mit linearen Modellen Exercise 8: Logistisches Regressionsmodell Exercise 9: Logistische Modelle anpassen Exercise 10: Vorhersagen mit logistischen Modellen Exercise 11: Modellbewertung Exercise 12: Validierungs-Set-Ansatz Exercise 13: Bewertung von Regressionsmodellen Exercise 14: Evaluierung von Klassifikationen Exercise 15: Zum Abschluss