LoslegenKostenlos starten

Trainings- und Testdaten aufteilen

Der erste Schritt beim Trainieren eines Modells ist, die Daten in Trainings- und Testdatensätze zu teilen. Das Paket tidymodels macht das leicht. Wenn du einen Testdatensatz zurücklegst, kannst du das trainierte Modell auf Daten bewerten, die es noch nie gesehen hat.

Du arbeitest mit den Employee-Healthcare-Attrition-Daten, die Informationen über Mitarbeitende eines Gesundheitsunternehmens enthalten und ob sie das Unternehmen verlassen haben oder nicht. Die Daten stehen dir in attrition_df zur Verfügung. Die Zielvariable ist Attrition.

Die Pakete tidyverse und tidymodels wurden bereits für dich geladen.

Diese Übung ist Teil des Kurses

<Kurs>Dimensionsreduktion in R</Kurs>
Kurs ansehen

Übungsanweisungen

  • Initialisiere einen Split der Daten mit 80 % für das Training und stratifiziere nach Attrition, der Zielvariable.
  • Extrahiere den Trainingsdatensatz und speichere ihn in train.
  • Extrahiere den Testdatensatz und speichere ihn in test.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Initialize the split
split <- ___(___, ___ = ___, strata = ___)

# Extract training set
train <- ___ %>% ___()

# Extract testing set
test <- ___ %>% ___()
Code bearbeiten und ausführen