CommencerCommencer gratuitement

Transformations d’entraînement et de test (II)

Comme pour l’application du même scaler aux ensembles d’entraînement et de test, si vous avez supprimé des valeurs aberrantes de l’ensemble d’entraînement, vous voudrez probablement faire de même pour l’ensemble de test. Là encore, assurez-vous d’utiliser les seuils calculés uniquement à partir de l’ensemble d’entraînement pour supprimer les valeurs aberrantes de l’ensemble de test.

Comme dans l’Exercice précédent, nous divisons le DataFrame so_numeric_df en ensembles d’entraînement (so_train_numeric) et de test (so_test_numeric).

Cet exercice fait partie du cours

Feature engineering pour le Machine Learning en Python

Afficher le cours

Instructions

  • Calculez l’écart type et la moyenne de la colonne ConvertedSalary.
  • Calculez les bornes supérieure et inférieure situées à trois écarts types de la moyenne dans les deux directions.
  • Réduisez le DataFrame so_test_numeric pour conserver toutes les lignes où ConvertedSalary est compris entre les bornes inférieure et supérieure.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____

cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off

# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
                             & (so_test_numeric['ConvertedSalary'] > ____)]
Modifier et exécuter le code