CommencerCommencer gratuitement

Réduire l’asymétrie des variables

Vous allez maintenant transformer les colonnes de wholesale à l’aide de la transformation de Box-Cox, puis explorer le graphique des relations par paires pour vérifier que l’asymétrie des distributions a été réduite afin de les rendre plus proches d’une loi normale. C’est une étape essentielle pour s’assurer que l’algorithme K-means converge et identifie des groupes homogènes (a.k.a. clusters ou segments) d’observations.

Le module stats est chargé depuis la bibliothèque scipy, et le jeu de données wholesale a été importé en tant que DataFrame pandas.

Cet exercice fait partie du cours

Machine Learning pour le marketing en Python

Afficher le cours

Instructions

  • Définissez une fonction personnalisée de transformation Box-Cox pouvant s’appliquer à un DataFrame pandas.
  • Appliquez la fonction au jeu de données wholesale.
  • Représentez les relations par paires entre les variables transformées.
  • Affichez le graphique.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Define custom Box Cox transformation function
def boxcox_df(x):
    x_boxcox, _ = stats.___(x)
    return x_boxcox

# Apply the function to the `wholesale` dataset
wholesale_boxcox = ___.___(boxcox_df, axis=0)

# Plot the pairwise relationships between the transformed variables 
sns.___(___, diag_kind='kde')

# Display the chart
plt.___()
Modifier et exécuter le code