Data splitsen in training en testing
Je bent nu klaar om een end-to-end Machine Learning-model te bouwen door een paar eenvoudige stappen te volgen! In de volgende hoofdstukken ga je veel dieper in op de nuances van modelleren, maar voor nu oefen je de belangrijkste stappen en leer je ze begrijpen.
De onafhankelijke kenmerken zijn voor je ingeladen als een pandas DataFrame met de naam X, en de afhankelijke waarden als een pandas Series met de naam Y.
Ook is de functie train_test_split uit de sklearn-bibliotheek ingeladen. Je gaat nu trainings- en testgegevenssets maken en daarna controleren of de data correct is gesplitst.
Deze oefening maakt deel uit van de cursus
Machine Learning voor marketing in Python
Oefeninstructies
- Splits
XenYin train- en testsets, waarbij 25% van de data voor testing wordt gebruikt. - Zorg dat de trainingsgegevensset slechts 75% van de oorspronkelijke data bevat.
- Zorg dat de testgegevensset slechts 25% van de oorspronkelijke data bevat.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)
# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])
# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])