Daten in Training und Test aufteilen

Du bist jetzt bereit, ein End-to-End-Machine-Learning-Modell in ein paar einfachen Schritten zu bauen! Die Feinheiten der Modellierung lernst du in den nächsten Kapiteln viel ausführlicher kennen, aber zunächst übst du die wichtigsten Schritte und verstehst, worauf es ankommt.

Die unabhängigen Merkmale wurden bereits als pandas DataFrame X geladen, die abhängige Variable als pandas Series Y.

Außerdem wurde die Funktion train_test_split aus der sklearn-Bibliothek geladen. Du erstellst jetzt Trainings- und Testdatensätze und prüfst anschließend, ob die Daten korrekt aufgeteilt wurden.

Diese Übung ist Teil des Kurses

<Kurs>Machine Learning für Marketing mit Python</Kurs>

Kurs ansehen

Übungsanweisungen

Teile X und Y in Trainings- und Testsätze auf, sodass 25 % der Daten für das Testing verwendet werden.
Stelle sicher, dass der Trainingsdatensatz nur 75 % der ursprünglichen Daten enthält.
Stelle sicher, dass der Testdatensatz nur 25 % der ursprünglichen Daten enthält.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)

# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])

# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])

Code bearbeiten und ausführen