Diviser les données en entraînement et test
Vous êtes maintenant prêt à construire un modèle de Machine Learning de bout en bout en suivant quelques étapes simples ! Vous approfondirez les subtilités du modèle dans les prochains chapitres, mais pour l’instant, vous allez pratiquer et comprendre les étapes clés.
Les variables explicatives ont été chargées pour vous dans un DataFrame pandas nommé X, et la variable cible dans une Series pandas nommée Y.
De plus, la fonction train_test_split a été importée depuis la bibliothèque sklearn. Vous allez maintenant créer les jeux de données d’entraînement et de test, puis vérifier que la division a été effectuée correctement.
Cet exercice fait partie du cours
Machine Learning pour le marketing en Python
Instructions
- Divisez
XetYen ensembles d’entraînement et de test, avec 25 % des données réservées au test. - Assurez-vous que l’ensemble d’entraînement contient uniquement 75 % des données initiales.
- Assurez-vous que l’ensemble de test contient uniquement 25 % des données initiales.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)
# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])
# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])