Aan de slagGa gratis aan de slag

Haal de scheefheid uit de variabelen

Je gaat nu de kolommen van wholesale transformeren met een Box-Cox-transformatie en daarna het pairwise-relatieplot verkennen om te controleren of de scheefheid van de verdelingen is verminderd en ze meer normaal zijn. Dit is een cruciale stap om ervoor te zorgen dat het K-means-algoritme convergeert en homogene groepen (ook wel clusters of segmenten) van observaties ontdekt.

De stats-module is geladen vanuit de scipy-bibliotheek en de wholesale-gegevensset is geïmporteerd als een pandas DataFrame.

Deze oefening maakt deel uit van de cursus

Machine Learning voor marketing in Python

Cursus bekijken

Oefeninstructies

  • Definieer een aangepaste Box-Cox-transformatiefunctie die je op een pandas DataFrame kunt toepassen.
  • Pas de functie toe op de wholesale-gegevensset.
  • Maak een plot van de pairwise-relaties tussen de getransformeerde variabelen.
  • Toon de visualisatie.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Define custom Box Cox transformation function
def boxcox_df(x):
    x_boxcox, _ = stats.___(x)
    return x_boxcox

# Apply the function to the `wholesale` dataset
wholesale_boxcox = ___.___(boxcox_df, axis=0)

# Plot the pairwise relationships between the transformed variables 
sns.___(___, diag_kind='kde')

# Display the chart
plt.___()
Code bewerken en uitvoeren