Transformations d’entraînement et de test (I)
Jusqu’ici, vous avez créé des scalers à partir d’une colonne, puis appliqué ce scaler aux mêmes données que celles sur lesquelles il a été entraîné. Lors de la création de modèles de Machine Learning, vous entraînez généralement vos modèles sur des données historiques (train set) et vous les appliquez à de nouvelles données jamais vues (test set). Dans ces cas, vous devez vous assurer que le même traitement de mise à l’échelle est appliqué aux données d’entraînement et de test. Pour cela, en pratique, vous entraînez le scaler sur le train set, puis vous conservez ce scaler entraîné pour l’appliquer au test set. Vous ne devez jamais réentraîner un scaler sur le test set.
Pour cet exercice et le suivant, nous avons scindé le DataFrame so_numeric_df en ensembles d’entraînement (so_train_numeric) et de test (so_test_numeric).
Cet exercice fait partie du cours
Feature engineering pour le Machine Learning en Python
Instructions
- Instanciez
StandardScaler()sous le nomSS_scaler. - Ajustez le
StandardScalersur la colonneAge. - Transformez la colonne
Agedans l’ensemble de test (so_test_numeric).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import StandardScaler
from sklearn.preprocessing import StandardScaler
# Apply a standard scaler to the data
SS_scaler = ____
# Fit the standard scaler to the data
____
# Transform the test data using the fitted scaler
so_test_numeric['Age_ss'] = ____
print(so_test_numeric[['Age', 'Age_ss']].head())