Daten in Training und Test aufteilen
Du bist jetzt bereit, ein End-to-End-Machine-Learning-Modell in ein paar einfachen Schritten zu bauen! Die Feinheiten der Modellierung lernst du in den nächsten Kapiteln viel ausführlicher kennen, aber zunächst übst du die wichtigsten Schritte und verstehst, worauf es ankommt.
Die unabhängigen Merkmale wurden bereits als pandas DataFrame X geladen, die abhängige Variable als pandas Series Y.
Außerdem wurde die Funktion train_test_split aus der sklearn-Bibliothek geladen. Du erstellst jetzt Trainings- und Testdatensätze und prüfst anschließend, ob die Daten korrekt aufgeteilt wurden.
Diese Übung ist Teil des Kurses
Machine Learning für Marketing mit Python
Anleitung zur Übung
- Teile
XundYin Trainings- und Testsätze auf, sodass 25 % der Daten für das Testing verwendet werden. - Stelle sicher, dass der Trainingsdatensatz nur 75 % der ursprünglichen Daten enthält.
- Stelle sicher, dass der Testdatensatz nur 25 % der ursprünglichen Daten enthält.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)
# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])
# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])