Découpage train - test
Dans ce chapitre, vous continuez à travailler avec le jeu de données ANSUR. Avant de pouvoir entraîner un modèle, vous devez choisir la variable cible à prédire. Ici, vous cherchez à prédire le genre.
Vous devez extraire la colonne qui contient cette variable puis diviser les données en un ensemble d’entraînement et un ensemble de test. L’ensemble d’entraînement servira à entraîner le modèle et l’ensemble de test permettra d’évaluer ses performances sur des données jamais vues.
ansur_df a été préchargé pour vous.
Cet exercice fait partie du cours
Réduction de dimension en Python
Instructions
- Importez la fonction
train_test_splitdepuissklearn.model_selection. - Affectez la colonne
'Gender'à y. - Supprimez la colonne
'Gender'du DataFrame et affectez le résultat àX. - Définissez la taille du test à 30 % pour effectuer une répartition 70 % entraînement et 30 % test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import train_test_split()
from ____.____ import ____
# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]
# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)
# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)
print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")