Scheefheid aanpakken
We hebben dezelfde gegevensset met de naam data geladen. Je doel is nu om de scheefheid uit var2 en var3 te halen, omdat ze een niet-symmetrische verdeling hadden, zoals je in de plot van de vorige oefening hebt gezien. Je visualiseert ze om te controleren of het probleem is opgelost!
De bibliotheken pandas, numpy, seaborn en matplotlib.pyplot zijn respectievelijk geladen als pd, np, sns en plt. Voel je vrij om de gegevensset in de console te verkennen.
Deze oefening maakt deel uit van de cursus
Klantsegmentatie in Python
Oefeninstructies
- Pas een logaritmische transformatie toe op
var2en sla deze op als de nieuwe variabelevar2_log. - Pas een logaritmische transformatie toe op
var3en sla deze op als de nieuwe variabelevar3_log. - Plot de verdeling van
var2_log. - Plot de verdeling van
var3_log.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Apply log transformation to var2
data['____'] = np.____(data['____'])
# Apply log transformation to var3
data['____'] = ____.____(____)
# Create a subplot of the distribution of var2_log
plt.____(2, 1, 1); ____.____(data['____'])
# Create a subplot of the distribution of var3_log
plt.____(2, 1, 2); ____.____(data['____'])
# Show the plot
plt.show()