Prétraiter les données RFM
Nous avons chargé l’ensemble de données avec les valeurs RFM que vous avez calculées précédemment sous le nom datamart_rfm. Comme les variables sont asymétriques et sur des échelles différentes, vous allez maintenant les désasymétriser et les normaliser.
La bibliothèque pandas est chargée sous pd, et numpy sous np. Prenez un moment pour explorer datamart_rfm dans la console.
Cet exercice fait partie du cours
Customer Segmentation in Python
Instructions
- Appliquez une transformation logarithmique pour corriger l’asymétrie de
datamart_rfmet enregistrez le résultat dansdatamart_log. - Initialisez une instance de
StandardScaler()nomméescaleret ajustez-la (fit) sur les donnéesdatamart_log. - Transformez les
dataen les centrant et les réduisant avecscaler. - Créez un DataFrame pandas à partir de
datamart_normalizeden ajoutant les index et noms de colonnes provenant dedatamart_rfm.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Unskew the data
datamart_log = np.____(____)
# Initialize a standard scaler and fit it
scaler = ____()
scaler.____(____)
# Scale and center the data
datamart_normalized = ____.____(____)
# Create a pandas DataFrame
datamart_normalized = pd.____(data=____, index=____.index, columns=____.columns)