S’entraîner à la standardisation

Il est risqué d’utiliser KNN à l’aveugle sur des distributions inconnues. Ses performances se dégradent fortement lorsque les distributions des variables n’ont pas la même échelle. Des variables non mises à l’échelle faussent les calculs de distance et renvoient donc des scores d’anomalie irréalistes.

Une technique courante pour y remédier est la standardisation, qui consiste à soustraire la moyenne d’une variable et à la diviser par son écart-type. Cela a pour effet de donner à la variable une moyenne de 0 et une variance de 1.

Entraînez-vous à standardiser le jeu de données females, qui a déjà été chargé pour vous.

Cet exercice fait partie du cours

<cours>Détection d’anomalies en Python</cours>

Voir le cours

Instructions de l’exercice

Créez une instance de StandardScaler() et stockez-la dans ss.
Extrayez les tableaux de caractéristiques et de cible dans X et y. La cible est la colonne weightkg.
Ajustez StandardScaler() sur X et transformez-le simultanément.
Répétez l’opération ci-dessus mais en préservant les noms de colonnes du DataFrame X.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

from sklearn.preprocessing import StandardScaler

# Initialize a StandardScaler
ss = ____

# Extract feature and target arrays
X = ____ 
y = ____

# Fit/transform X
X_transformed = ____

# Fit/transform X but preserve the column names
X.____ = ____

Modifier et exécuter le code