Schiefe variablen entzerren
Du wirst jetzt die Spalten von wholesale mit der Box-Cox-Transformation umwandeln und anschließend den Plot der paarweisen Beziehungen untersuchen, um sicherzustellen, dass die Schiefe der Verteilungen reduziert wurde und sie normaler aussehen. Das ist ein entscheidender Schritt, damit der K-Means-Algorithmus konvergiert und homogene Gruppen (auch Cluster oder Segmente genannt) von Beobachtungen findet.
Das Modul stats ist aus der scipy-Bibliothek geladen, und der wholesale-Datensatz wurde als pandas-DataFrame importiert.
Diese Übung ist Teil des Kurses
Machine Learning für Marketing mit Python
Anleitung zur Übung
- Definiere eine eigene Box-Cox-Transformationsfunktion, die auf ein
pandas-DataFrame angewendet werden kann. - Wende die Funktion auf den
wholesale-Datensatz an. - Plotte die paarweisen Beziehungen zwischen den transformierten Variablen.
- Zeige das Diagramm an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Define custom Box Cox transformation function
def boxcox_df(x):
x_boxcox, _ = stats.___(x)
return x_boxcox
# Apply the function to the `wholesale` dataset
wholesale_boxcox = ___.___(boxcox_df, axis=0)
# Plot the pairwise relationships between the transformed variables
sns.___(___, diag_kind='kde')
# Display the chart
plt.___()