Mettre les données à l’échelle
Pour les algorithmes de ML basés sur des mesures de distance, il est crucial de toujours mettre vos données à l’échelle, car des variables sur des échelles différentes fausseront les résultats. K-means utilise la distance euclidienne pour mesurer la distance aux centroïdes des clusters ; vous devez donc d’abord mettre vos données à l’échelle avant de poursuivre l’implémentation de l’algorithme. Commençons par là.
Le dataframe df issu de l’exercice précédent est disponible, avec quelques préparations mineures pour qu’il soit prêt à être utilisé avec sklearn. Les étiquettes de fraude sont stockées séparément dans labels, vous pourrez les utiliser pour vérifier les résultats plus tard. numpy a été importé sous le nom np.
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
- Importez
MinMaxScaler. - Transformez votre dataframe
dfen un tableau numpyXen ne prenant que les valeurs dedfet assurez-vous d’avoir uniquement des valeurs de typefloat. - Appliquez le scaler défini sur
Xpour obtenir des valeurs mises à l’échelleX_scaled, afin d’imposer une échelle 0–1 à toutes vos variables.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the scaler
from sklearn.preprocessing import ____
# Take the float values of df for X
X = df.values.astype(np.____)
# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)