CommencerCommencer gratuitement

Diviser les données en entraînement et test

Vous êtes maintenant prêt à construire un modèle de Machine Learning de bout en bout en suivant quelques étapes simples ! Vous approfondirez les subtilités du modèle dans les prochains chapitres, mais pour l’instant, vous allez pratiquer et comprendre les étapes clés.

Les variables explicatives ont été chargées pour vous dans un DataFrame pandas nommé X, et la variable cible dans une Series pandas nommée Y.

De plus, la fonction train_test_split a été importée depuis la bibliothèque sklearn. Vous allez maintenant créer les jeux de données d’entraînement et de test, puis vérifier que la division a été effectuée correctement.

Cet exercice fait partie du cours

Machine Learning pour le marketing en Python

Afficher le cours

Instructions

  • Divisez X et Y en ensembles d’entraînement et de test, avec 25 % des données réservées au test.
  • Assurez-vous que l’ensemble d’entraînement contient uniquement 75 % des données initiales.
  • Assurez-vous que l’ensemble de test contient uniquement 25 % des données initiales.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)

# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])

# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])
Modifier et exécuter le code