Trainings- und Testdaten aufteilen
Der erste Schritt beim Trainieren eines Modells ist, die Daten in Trainings- und Testdatensätze zu teilen. Das Paket tidymodels macht das leicht. Wenn du einen Testdatensatz zurücklegst, kannst du das trainierte Modell auf Daten bewerten, die es noch nie gesehen hat.
Du arbeitest mit den Employee-Healthcare-Attrition-Daten, die Informationen über Mitarbeitende eines Gesundheitsunternehmens enthalten und ob sie das Unternehmen verlassen haben oder nicht. Die Daten stehen dir in attrition_df zur Verfügung. Die Zielvariable ist Attrition.
Die Pakete tidyverse und tidymodels wurden bereits für dich geladen.
Diese Übung ist Teil des Kurses
Dimensionsreduktion in R
Anleitung zur Übung
- Initialisiere einen Split der Daten mit 80 % für das Training und stratifiziere nach
Attrition, der Zielvariable. - Extrahiere den Trainingsdatensatz und speichere ihn in
train. - Extrahiere den Testdatensatz und speichere ihn in
test.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Initialize the split
split <- ___(___, ___ = ___, strata = ___)
# Extract training set
train <- ___ %>% ___()
# Extract testing set
test <- ___ %>% ___()