Data splitsen in training en testing

Je bent nu klaar om een end-to-end Machine Learning-model te bouwen door een paar eenvoudige stappen te volgen! In de volgende hoofdstukken ga je veel dieper in op de nuances van modelleren, maar voor nu oefen je de belangrijkste stappen en leer je ze begrijpen.

De onafhankelijke kenmerken zijn voor je ingeladen als een pandas DataFrame met de naam X, en de afhankelijke waarden als een pandas Series met de naam Y.

Ook is de functie train_test_split uit de sklearn-bibliotheek ingeladen. Je gaat nu trainings- en testgegevenssets maken en daarna controleren of de data correct is gesplitst.

Deze oefening maakt deel uit van de cursus

Machine Learning voor marketing in Python

Bekijk cursus

Oefeninstructies

Splits X en Y in train- en testsets, waarbij 25% van de data voor testing wordt gebruikt.
Zorg dat de trainingsgegevensset slechts 75% van de oorspronkelijke data bevat.
Zorg dat de testgegevensset slechts 25% van de oorspronkelijke data bevat.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)

# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])

# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])

Code bewerken en uitvoeren