CommencerCommencer gratuitement

Mettre les données à l’échelle

Pour les algorithmes de ML basés sur des mesures de distance, il est crucial de toujours mettre vos données à l’échelle, car des variables sur des échelles différentes fausseront les résultats. K-means utilise la distance euclidienne pour mesurer la distance aux centroïdes des clusters ; vous devez donc d’abord mettre vos données à l’échelle avant de poursuivre l’implémentation de l’algorithme. Commençons par là.

Le dataframe df issu de l’exercice précédent est disponible, avec quelques préparations mineures pour qu’il soit prêt à être utilisé avec sklearn. Les étiquettes de fraude sont stockées séparément dans labels, vous pourrez les utiliser pour vérifier les résultats plus tard. numpy a été importé sous le nom np.

Cet exercice fait partie du cours

Détection de fraude en Python

Afficher le cours

Instructions

  • Importez MinMaxScaler.
  • Transformez votre dataframe df en un tableau numpy X en ne prenant que les valeurs de df et assurez-vous d’avoir uniquement des valeurs de type float.
  • Appliquez le scaler défini sur X pour obtenir des valeurs mises à l’échelle X_scaled, afin d’imposer une échelle 0–1 à toutes vos variables.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the scaler
from sklearn.preprocessing import ____

# Take the float values of df for X
X = df.values.astype(np.____)

# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)
Modifier et exécuter le code