CommencerCommencer gratuitement

Découpage train - test

Dans ce chapitre, vous continuez à travailler avec le jeu de données ANSUR. Avant de pouvoir entraîner un modèle, vous devez choisir la variable cible à prédire. Ici, vous cherchez à prédire le genre.

Vous devez extraire la colonne qui contient cette variable puis diviser les données en un ensemble d’entraînement et un ensemble de test. L’ensemble d’entraînement servira à entraîner le modèle et l’ensemble de test permettra d’évaluer ses performances sur des données jamais vues.

ansur_df a été préchargé pour vous.

Cet exercice fait partie du cours

Réduction de dimension en Python

Afficher le cours

Instructions

  • Importez la fonction train_test_split depuis sklearn.model_selection.
  • Affectez la colonne 'Gender' à y.
  • Supprimez la colonne 'Gender' du DataFrame et affectez le résultat à X.
  • Définissez la taille du test à 30 % pour effectuer une répartition 70 % entraînement et 30 % test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import train_test_split()
from ____.____ import ____

# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]

# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")
Modifier et exécuter le code