Réduire l’asymétrie des variables
Vous allez maintenant transformer les colonnes de wholesale à l’aide de la transformation de Box-Cox, puis explorer le graphique des relations par paires pour vérifier que l’asymétrie des distributions a été réduite afin de les rendre plus proches d’une loi normale. C’est une étape essentielle pour s’assurer que l’algorithme K-means converge et identifie des groupes homogènes (a.k.a. clusters ou segments) d’observations.
Le module stats est chargé depuis la bibliothèque scipy, et le jeu de données wholesale a été importé en tant que DataFrame pandas.
Cet exercice fait partie du cours
Machine Learning pour le marketing en Python
Instructions
- Définissez une fonction personnalisée de transformation Box-Cox pouvant s’appliquer à un DataFrame
pandas. - Appliquez la fonction au jeu de données
wholesale. - Représentez les relations par paires entre les variables transformées.
- Affichez le graphique.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Define custom Box Cox transformation function
def boxcox_df(x):
x_boxcox, _ = stats.___(x)
return x_boxcox
# Apply the function to the `wholesale` dataset
wholesale_boxcox = ___.___(boxcox_df, axis=0)
# Plot the pairwise relationships between the transformed variables
sns.___(___, diag_kind='kde')
# Display the chart
plt.___()