Der Test-Train-Split

In einem strukturierten Machine-Learning-Workflow ist es entscheidend, einen Teil deiner Daten (Testdaten) von allen Entscheidungen auszuklammern. So kannst du die Leistung deines finalen Modells unabhängig beurteilen. Die verbleibenden Daten, die Trainingsdaten, nutzt du, um das Modell zu bauen und das beste auszuwählen.

In dieser Übung verwendest du das Paket rsample, um deine Daten für den initialen Train-Test-Split deiner gapminder-Daten aufzuteilen.

Hinweis: Da es sich um eine zufällige Aufteilung der Daten handelt, ist es gute Praxis, vor dem Split einen Seed zu setzen.

Diese Übung ist Teil des Kurses

<Kurs>Machine Learning im Tidyverse</Kurs>

Kurs ansehen

Übungsanweisungen

Teile deine Daten mit der Funktion initial_split() in 75 % Training und 25 % Test auf und weise das Ergebnis gap_split zu.
Extrahiere den Trainings-Data-Frame aus gap_split mit der Funktion training().
Extrahiere den Test-Data-Frame aus gap_split mit der Funktion testing().
Prüfe mit dim() auf training_data und testing_data, ob die Dimensionen deiner neuen Data-Frames deinen Erwartungen entsprechen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

set.seed(42)

# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)

# Extract the training data frame
training_data <- ___

# Extract the testing data frame
testing_data <- ___

# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)

Code bearbeiten und ausführen