Validierungs-Set-Ansatz

Im Kapitel zur linearen Regression hast du ein lineares Regressionsmodell angepasst, das das Herzgewicht von Katzen durch ihr Körpergewicht erklärt. Der/die Interviewer:in bittet dich nun, zu bewerten, wie gut dein Modell ist.

Um diese Frage zu beantworten, brauchst du Vorhersagen, die du mit den tatsächlichen Werten vergleichen kannst. Beim Validierungs-Set-Ansatz teilst du deine Daten in zwei Teile.

Dazu kannst du zunächst eine Stichprobe von z. B. 80 % der Zeilennummern ziehen. Verwende die ausgewählten Zeilennummern, um das Trainings-Set zu bilden. Der Rest des Data Frames dient zum Testen.

Denk daran:

rows <- c(1, 3)
df[-rows, ]

wählt alle bis auf die erste und die dritte Zeile aus.

Der cats-Datensatz steht dir in deiner Umgebung zur Verfügung.

Diese Übung ist Teil des Kurses

Statistik-Interviewfragen in R üben

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

set.seed(123)

# Generate train row numbers
train_rows <- ___(nrow(___), round(0.8 * ___(cats)))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Statistik-Interviewfragen in R üben

Hohe SchwierigkeitSchwierigkeitsgrad

4.7+

Kurs kostenlos starten

Willst du deine Chancen erhöhen, dein Bewerbungsgespräch zu rocken? Dann frische dein Wissen in Wahrscheinlichkeitsrechnung auf. In diesem Kapitel werfen wir Würfel und üben Würfe, um Wahrscheinlichkeiten anhand von Beispielen aus dem Alltag zu erklären.

Exercise 1: Diskrete Verteilungen Exercise 2: Wahrscheinlichkeitsfunktionen Exercise 3: Bernoulli-Versuche Exercise 4: Binomialverteilung Exercise 5: Stetige Verteilungen Exercise 6: Gleichverteilung Exercise 7: Form der Normalverteilung Exercise 8: Stichprobe aus der Normalverteilung Exercise 9: Zentraler Grenzwertsatz Exercise 10: Gesetz der großen Zahlen Exercise 11: Zentrales Grenzwerttheorem simulieren

Wenn dich die Stellenbeschreibung anspricht, wiederhole vor dem Gespräch die beschreibende Statistik. In diesem Kapitel übst du explorative Datenanalyse (EDA) anhand von Erdgaspreisen und Daten aus einer Umfrageanalyse.

Exercise 1: Deskriptive Statistik Exercise 2: Lagemaße Exercise 3: Streuungsmaße Exercise 4: Kategoriale Daten Exercise 5: Umfrageanalyse Exercise 6: Datenkodierung Exercise 7: Zeitreihen Exercise 8: Zeitreihenobjekt Exercise 9: Zeitreihen aufbereiten Exercise 10: Hauptkomponentenanalyse Exercise 11: PCA – Rotation Exercise 12: PCA – Dimensionsreduktion

Geh selbstbewusst in dein Bewerbungsgespräch, nachdem du Konfidenzintervalle wiederholt hast. Wir besprechen den t-Test, ANOVA und Normalitätstests, damit du auf statistikbasierte Coding-Fragen vorbereitet bist.

Exercise 1: Normalitätstests Exercise 2: Shapiro-Wilk-Test Exercise 3: Q-Q-Plot Exercise 4: Schlussfolgerungen für einen Mittelwert Exercise 5: Konfidenzintervall Exercise 6: Einstichproben-t-Test Exercise 7: Zwei Mittelwerte vergleichen Exercise 8: Zweistichproben-t-Test Exercise 9: Gepaarter Test Exercise 10: ANOVA Exercise 11: Gruppen vergleichen Exercise 12: ANOVA für Pflanzenwachstum

Plant dein potenzieller Arbeitgeber, deine R-Skills zu testen? Sorge dafür, dass du vorbereitet bist, und übe die Modellevaluation im Voraus. In diesem Kapitel passen wir lineare und logistische Regressionsmodelle an und bewerten sie mit verschiedenen biomedizinischen Datensätzen. Am Ende dieses Kapitels bist du bestens gerüstet, um jede Frage der Interviewer souverän zu beantworten!

Exercise 1: Kovarianz und Korrelation Exercise 2: Kovarianz per Hand Exercise 3: Lineare Beziehung Exercise 4: Nichtlineare Beziehung Exercise 5: Lineares Regressionsmodell Exercise 6: Lineare Modelle anpassen Exercise 7: Vorhersagen mit linearen Modellen Exercise 8: Logistisches Regressionsmodell Exercise 9: Logistische Modelle anpassen Exercise 10: Vorhersagen mit logistischen Modellen Exercise 11: Modellbewertung Exercise 12: Validierungs-Set-Ansatz

Aktuelle Übung

Exercise 13: Bewertung von Regressionsmodellen Exercise 14: Evaluierung von Klassifikationen Exercise 15: Zum Abschluss