Alle variabelen discretiseren
In plaats van de continue variabelen één voor één te discretiseren, is het handiger om dit automatisch te doen. Om in Python een lijst van alle kolommen te krijgen, kun je
variables = basetable.columns
Alleen variabelen die continu zijn moeten worden gediscretiseerd. Je kunt controleren of variabelen gediscretiseerd moeten worden door na te gaan of ze meer dan een vooraf bepaald aantal verschillende waarden hebben.
Deze oefening maakt deel uit van de cursus
Introductie tot Predictive Analytics in Python
Oefeninstructies
- Maak een lijst
variablesmet alle kolomnamen van de basetable. - Maak een lus die alle variabelen in de lijst
variablescontroleert. - Vul de
if-statement aan zodat alleen variabelen met meer dan 5 verschillende waarden worden gediscretiseerd. - Deel de continue variabelen in 10 groepen in met de
qcut-methode.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the columns in the original basetable
print(basetable.columns)
# Get all the variable names except "target"
variables = list(____.____)
variables.remove("target")
# Loop through all the variables and discretize in 10 bins if there are more than 5 different values
for variable in ____:
if len(basetable.groupby(____))>____:
new_variable = "disc_" + variable
basetable[new_variable] = pd.qcut(basetable[____], ____)
# Print the columns in the new basetable
print(basetable.columns)