Trainings- und Testdaten aufteilen
Der erste Schritt beim Trainieren eines Modells ist, die Daten in Trainings- und Testdatensätze zu teilen. Das Paket tidymodels macht das leicht. Wenn du einen Testdatensatz zurücklegst, kannst du das trainierte Modell auf Daten bewerten, die es noch nie gesehen hat.
Du arbeitest mit den Employee-Healthcare-Attrition-Daten, die Informationen über Mitarbeitende eines Gesundheitsunternehmens enthalten und ob sie das Unternehmen verlassen haben oder nicht. Die Daten stehen dir in attrition_df zur Verfügung. Die Zielvariable ist Attrition.
Die Pakete tidyverse und tidymodels wurden bereits für dich geladen.
Diese Übung ist Teil des Kurses
<Kurs>Dimensionsreduktion in R</Kurs>Übungsanweisungen
- Initialisiere einen Split der Daten mit 80 % für das Training und stratifiziere nach
Attrition, der Zielvariable. - Extrahiere den Trainingsdatensatz und speichere ihn in
train. - Extrahiere den Testdatensatz und speichere ihn in
test.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Initialize the split
split <- ___(___, ___ = ___, strata = ___)
# Extract training set
train <- ___ %>% ___()
# Extract testing set
test <- ___ %>% ___()