Trainings- und Testdaten aufteilen

Der erste Schritt beim Trainieren eines Modells ist, die Daten in Trainings- und Testdatensätze zu teilen. Das Paket tidymodels macht das leicht. Wenn du einen Testdatensatz zurücklegst, kannst du das trainierte Modell auf Daten bewerten, die es noch nie gesehen hat.

Du arbeitest mit den Employee-Healthcare-Attrition-Daten, die Informationen über Mitarbeitende eines Gesundheitsunternehmens enthalten und ob sie das Unternehmen verlassen haben oder nicht. Die Daten stehen dir in attrition_df zur Verfügung. Die Zielvariable ist Attrition.

Die Pakete tidyverse und tidymodels wurden bereits für dich geladen.

Diese Übung ist Teil des Kurses

Dimensionsreduktion in R

Kurs anzeigen

Anleitung zur Übung

Initialisiere einen Split der Daten mit 80 % für das Training und stratifiziere nach Attrition, der Zielvariable.
Extrahiere den Trainingsdatensatz und speichere ihn in train.
Extrahiere den Testdatensatz und speichere ihn in test.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Initialize the split
split <- ___(___, ___ = ___, strata = ___)

# Extract training set
train <- ___ %>% ___()

# Extract testing set
test <- ___ %>% ___()

Code bearbeiten und ausführen