Schiefe Verteilungen korrigieren
Wir haben denselben Datensatz namens data geladen. Dein Ziel ist jetzt, die Schiefe aus var2 und var3 zu entfernen, da sie – wie du im Plot der vorherigen Übung gesehen hast – nicht symmetrisch verteilt waren. Du wirst sie visualisieren, um sicherzustellen, dass das Problem gelöst ist!
Die Bibliotheken pandas, numpy, seaborn und matplotlib.pyplot wurden als pd, np, sns bzw. plt geladen. Du kannst den Datensatz gern in der Konsole erkunden.
Diese Übung ist Teil des Kurses
Kundensegmentierung in Python
Anleitung zur Übung
- Wende eine logarithmische Transformation auf
var2an und speichere sie als neue Variablevar2_log. - Wende eine logarithmische Transformation auf
var3an und speichere sie als neue Variablevar3_log. - Plotte die Verteilung von
var2_log. - Plotte die Verteilung von
var3_log.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Apply log transformation to var2
data['____'] = np.____(data['____'])
# Apply log transformation to var3
data['____'] = ____.____(____)
# Create a subplot of the distribution of var2_log
plt.____(2, 1, 1); ____.____(data['____'])
# Create a subplot of the distribution of var3_log
plt.____(2, 1, 2); ____.____(data['____'])
# Show the plot
plt.show()