Daten-Resampling

Der erste Schritt in einem Machine-Learning-Projekt ist das Erstellen von Trainings- und Testdatensätzen für das Anpassen und Bewerten von Modellen. Der Testdatensatz liefert eine Schätzung, wie dein Modell auf neuen Daten abschneiden wird, und hilft, Overfitting zu vermeiden.

Du arbeitest mit dem Datensatz telecom_df, der Informationen zu Kundinnen und Kunden eines Telekommunikationsunternehmens enthält. Die Zielvariable ist canceled_service und gibt an, ob eine Kundin oder ein Kunde den Vertrag mit dem Unternehmen gekündigt hat. Die Prädiktorvariablen enthalten Informationen zur Nutzung von Mobilfunk und Internet sowie zum Vertragstyp und zu den monatlichen Gebühren.

Das Tibble telecom_df wurde in deine Session geladen.

Diese Übung ist Teil des Kurses

Modellierung mit tidymodels in R

Kurs anzeigen

Anleitung zur Übung

Erstelle ein rsample-Objekt telecom_split, das die Anweisungen enthält, um die Daten in telecom_df zufällig in Trainings- und Testdatensätze aufzuteilen.
- Weise 75 % der Daten dem Training zu und stratifiziere nach canceled_service.
Übergib das Objekt telecom_split an die passenden rsample-Funktionen, um die Trainings- und Testdatensätze zu erstellen.
Prüfe die Anzahl der Zeilen in den jeweiligen Datensätzen, indem du sie an die Funktion nrow() übergibst.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create data split object
telecom_split <- ___(___, prop = ___,
                     strata = ___)

# Create the training data
telecom_training <- ___ %>% 
  ___

# Create the test data
telecom_test <- ___ %>% 
  ___

# Check the number of rows
nrow(___)
nrow(___)

Code bearbeiten und ausführen