Discretisatie van een bepaalde variabele
Om predictor insight graphs voor continue variabelen te maken, moet je ze eerst discretiseren. In Python kun je pandas-kolommen discretiseren met de methode qcut.
Om te controleren of de variabele netjes is gediscretiseerd, kun je nagaan of de bins ongeveer even groot zijn met de methode groupby:
print(basetable.groupby("discretized_variable").size()
Deze oefening maakt deel uit van de cursus
Introductie tot Predictive Analytics in Python
Oefeninstructies
- Gebruik de methode
qcutom de variabeletime_since_last_donationin 10 groepen te discretiseren. Ken deze variabele toe aan een nieuwe kolom met de naam "bins_recency". - Gebruik de methode
groupbyom te controleren dat de bins ongeveer even groot zijn.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Discretize the variable time_since_last_donation in 10 bins
basetable["bins_recency"] = pd.qcut(____,____)
# Print the group sizes of the discretized variable
print(basetable.groupby("____").size())