S’entraîner à la standardisation
Il est risqué d’utiliser KNN à l’aveugle sur des distributions inconnues. Ses performances se dégradent fortement lorsque les distributions des variables n’ont pas la même échelle. Des variables non mises à l’échelle faussent les calculs de distance et renvoient donc des scores d’anomalie irréalistes.
Une technique courante pour y remédier est la standardisation, qui consiste à soustraire la moyenne d’une variable et à la diviser par son écart-type. Cela a pour effet de donner à la variable une moyenne de 0 et une variance de 1.
Entraînez-vous à standardiser le jeu de données females, qui a déjà été chargé pour vous.
Cet exercice fait partie du cours
Détection d’anomalies en Python
Instructions
- Créez une instance de
StandardScaler()et stockez-la dansss. - Extrayez les tableaux de caractéristiques et de cible dans
Xety. La cible est la colonneweightkg. - Ajustez
StandardScaler()sur X et transformez-le simultanément. - Répétez l’opération ci-dessus mais en préservant les noms de colonnes du DataFrame
X.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from sklearn.preprocessing import StandardScaler
# Initialize a StandardScaler
ss = ____
# Extract feature and target arrays
X = ____
y = ____
# Fit/transform X
X_transformed = ____
# Fit/transform X but preserve the column names
X.____ = ____