Mettre les données à l’échelle

Pour les algorithmes de ML basés sur des mesures de distance, il est crucial de toujours mettre vos données à l’échelle, car des variables sur des échelles différentes fausseront les résultats. K-means utilise la distance euclidienne pour mesurer la distance aux centroïdes des clusters ; vous devez donc d’abord mettre vos données à l’échelle avant de poursuivre l’implémentation de l’algorithme. Commençons par là.

Le dataframe df issu de l’exercice précédent est disponible, avec quelques préparations mineures pour qu’il soit prêt à être utilisé avec sklearn. Les étiquettes de fraude sont stockées séparément dans labels, vous pourrez les utiliser pour vérifier les résultats plus tard. numpy a été importé sous le nom np.

Cet exercice fait partie du cours

Détection de fraude en Python

Afficher le cours

Instructions

Importez MinMaxScaler.
Transformez votre dataframe df en un tableau numpy X en ne prenant que les valeurs de df et assurez-vous d’avoir uniquement des valeurs de type float.
Appliquez le scaler défini sur X pour obtenir des valeurs mises à l’échelle X_scaled, afin d’imposer une échelle 0–1 à toutes vos variables.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the scaler
from sklearn.preprocessing import ____

# Take the float values of df for X
X = df.values.astype(np.____)

# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)

Modifier et exécuter le code