Transformations d’entraînement et de test (II)
Comme pour l’application du même scaler aux ensembles d’entraînement et de test, si vous avez supprimé des valeurs aberrantes de l’ensemble d’entraînement, vous voudrez probablement faire de même pour l’ensemble de test. Là encore, assurez-vous d’utiliser les seuils calculés uniquement à partir de l’ensemble d’entraînement pour supprimer les valeurs aberrantes de l’ensemble de test.
Comme dans l’Exercice précédent, nous divisons le DataFrame so_numeric_df en ensembles d’entraînement (so_train_numeric) et de test (so_test_numeric).
Cet exercice fait partie du cours
Feature engineering pour le Machine Learning en Python
Instructions
- Calculez l’écart type et la moyenne de la colonne
ConvertedSalary. - Calculez les bornes supérieure et inférieure situées à trois écarts types de la moyenne dans les deux directions.
- Réduisez le DataFrame
so_test_numericpour conserver toutes les lignes oùConvertedSalaryest compris entre les bornes inférieure et supérieure.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____
cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off
# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
& (so_test_numeric['ConvertedSalary'] > ____)]