CommencerCommencer gratuitement

Transformations d’entraînement et de test (I)

Jusqu’ici, vous avez créé des scalers à partir d’une colonne, puis appliqué ce scaler aux mêmes données que celles sur lesquelles il a été entraîné. Lors de la création de modèles de Machine Learning, vous entraînez généralement vos modèles sur des données historiques (train set) et vous les appliquez à de nouvelles données jamais vues (test set). Dans ces cas, vous devez vous assurer que le même traitement de mise à l’échelle est appliqué aux données d’entraînement et de test. Pour cela, en pratique, vous entraînez le scaler sur le train set, puis vous conservez ce scaler entraîné pour l’appliquer au test set. Vous ne devez jamais réentraîner un scaler sur le test set.

Pour cet exercice et le suivant, nous avons scindé le DataFrame so_numeric_df en ensembles d’entraînement (so_train_numeric) et de test (so_test_numeric).

Cet exercice fait partie du cours

Feature engineering pour le Machine Learning en Python

Afficher le cours

Instructions

  • Instanciez StandardScaler() sous le nom SS_scaler.
  • Ajustez le StandardScaler sur la colonne Age.
  • Transformez la colonne Age dans l’ensemble de test (so_test_numeric).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import StandardScaler
from sklearn.preprocessing import StandardScaler

# Apply a standard scaler to the data
SS_scaler = ____

# Fit the standard scaler to the data
____

# Transform the test data using the fitted scaler
so_test_numeric['Age_ss'] = ____
print(so_test_numeric[['Age', 'Age_ss']].head())
Modifier et exécuter le code