Der Test-Train-Split
In einem strukturierten Machine-Learning-Workflow ist es entscheidend, einen Teil deiner Daten (Testdaten) von allen Entscheidungen auszuklammern. So kannst du die Leistung deines finalen Modells unabhängig beurteilen. Die verbleibenden Daten, die Trainingsdaten, nutzt du, um das Modell zu bauen und das beste auszuwählen.
In dieser Übung verwendest du das Paket rsample, um deine Daten für den initialen Train-Test-Split deiner gapminder-Daten aufzuteilen.
Hinweis: Da es sich um eine zufällige Aufteilung der Daten handelt, ist es gute Praxis, vor dem Split einen Seed zu setzen.
Diese Übung ist Teil des Kurses
Machine Learning im Tidyverse
Anleitung zur Übung
- Teile deine Daten mit der Funktion
initial_split()in 75 % Training und 25 % Test auf und weise das Ergebnisgap_splitzu. - Extrahiere den Trainings-Data-Frame aus
gap_splitmit der Funktiontraining(). - Extrahiere den Test-Data-Frame aus
gap_splitmit der Funktiontesting(). - Prüfe mit
dim()auftraining_dataundtesting_data, ob die Dimensionen deiner neuen Data-Frames deinen Erwartungen entsprechen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
set.seed(42)
# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)
# Extract the training data frame
training_data <- ___
# Extract the testing data frame
testing_data <- ___
# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)