Daten-Resampling
Der erste Schritt in einem Machine-Learning-Projekt ist das Erstellen von Trainings- und Testdatensätzen für das Anpassen und Bewerten von Modellen. Der Testdatensatz liefert eine Schätzung, wie dein Modell auf neuen Daten abschneiden wird, und hilft, Overfitting zu vermeiden.
Du arbeitest mit dem Datensatz telecom_df, der Informationen zu Kundinnen und Kunden eines Telekommunikationsunternehmens enthält. Die Zielvariable ist canceled_service und gibt an, ob eine Kundin oder ein Kunde den Vertrag mit dem Unternehmen gekündigt hat. Die Prädiktorvariablen enthalten Informationen zur Nutzung von Mobilfunk und Internet sowie zum Vertragstyp und zu den monatlichen Gebühren.
Das Tibble telecom_df wurde in deine Session geladen.
Diese Übung ist Teil des Kurses
Modellierung mit tidymodels in R
Anleitung zur Übung
- Erstelle ein
rsample-Objekttelecom_split, das die Anweisungen enthält, um die Daten intelecom_dfzufällig in Trainings- und Testdatensätze aufzuteilen.- Weise 75 % der Daten dem Training zu und stratifiziere nach
canceled_service.
- Weise 75 % der Daten dem Training zu und stratifiziere nach
- Übergib das Objekt
telecom_splitan die passendenrsample-Funktionen, um die Trainings- und Testdatensätze zu erstellen. - Prüfe die Anzahl der Zeilen in den jeweiligen Datensätzen, indem du sie an die Funktion
nrow()übergibst.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create data split object
telecom_split <- ___(___, prop = ___,
strata = ___)
# Create the training data
telecom_training <- ___ %>%
___
# Create the test data
telecom_test <- ___ %>%
___
# Check the number of rows
nrow(___)
nrow(___)