Haal de scheefheid uit de variabelen
Je gaat nu de kolommen van wholesale transformeren met een Box-Cox-transformatie en daarna het pairwise-relatieplot verkennen om te controleren of de scheefheid van de verdelingen is verminderd en ze meer normaal zijn. Dit is een cruciale stap om ervoor te zorgen dat het K-means-algoritme convergeert en homogene groepen (ook wel clusters of segmenten) van observaties ontdekt.
De stats-module is geladen vanuit de scipy-bibliotheek en de wholesale-gegevensset is geïmporteerd als een pandas DataFrame.
Deze oefening maakt deel uit van de cursus
Machine Learning voor marketing in Python
Oefeninstructies
- Definieer een aangepaste Box-Cox-transformatiefunctie die je op een
pandasDataFrame kunt toepassen. - Pas de functie toe op de
wholesale-gegevensset. - Maak een plot van de pairwise-relaties tussen de getransformeerde variabelen.
- Toon de visualisatie.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Define custom Box Cox transformation function
def boxcox_df(x):
x_boxcox, _ = stats.___(x)
return x_boxcox
# Apply the function to the `wholesale` dataset
wholesale_boxcox = ___.___(boxcox_df, axis=0)
# Plot the pairwise relationships between the transformed variables
sns.___(___, diag_kind='kde')
# Display the chart
plt.___()