Diviser les données en entraînement et test

Dernière étape avant de passer à la construction du modèle de régression ! Ici, vous allez identifier les noms de la variable cible et des colonnes de variables explicatives, extraire les données, puis les diviser en entraînement et test.

Les bibliothèques pandas et numpy ont été importées sous les alias pd et np respectivement. Les variables explicatives ont été importées sous forme du jeu de données features, et la variable cible que vous avez construite dans l’exercice précédent a été importée pour vous sous le nom Y.

Cet exercice fait partie du cours

<cours>Machine Learning pour le marketing en Python</cours>

Voir le cours

Instructions de l’exercice

Enregistrez le nom de la colonne identifiant le client sous forme de liste.
Sélectionnez les noms des colonnes de variables explicatives en excluant l’identifiant client.
Extrayez les variables explicatives dans X.
Divisez les données en entraînement et test en utilisant la fonction train_test_split().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Store customer identifier column name as a list
custid = ['___']

# Select feature column names excluding customer identifier
cols = [col for col in features.___ if col not in ___]

# Extract the features as `X`
X = features[___]

# Split data to training and testing
___, test_X, train_Y, ___ = ___(X, Y, test_size=0.25, random_state=99)

Modifier et exécuter le code