Diviser les données en entraînement et test
Dernière étape avant de passer à la construction du modèle de régression ! Ici, vous allez identifier les noms de la variable cible et des colonnes de variables explicatives, extraire les données, puis les diviser en entraînement et test.
Les bibliothèques pandas et numpy ont été importées sous les alias pd et np respectivement. Les variables explicatives ont été importées sous forme du jeu de données features, et la variable cible que vous avez construite dans l’exercice précédent a été importée pour vous sous le nom Y.
Cet exercice fait partie du cours
Machine Learning pour le marketing en Python
Instructions
- Enregistrez le nom de la colonne identifiant le client sous forme de liste.
- Sélectionnez les noms des colonnes de variables explicatives en excluant l’identifiant client.
- Extrayez les variables explicatives dans
X. - Divisez les données en entraînement et test en utilisant la fonction
train_test_split().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Store customer identifier column name as a list
custid = ['___']
# Select feature column names excluding customer identifier
cols = [col for col in features.___ if col not in ___]
# Extract the features as `X`
X = features[___]
# Split data to training and testing
___, test_X, train_Y, ___ = ___(X, Y, test_size=0.25, random_state=99)