Aan de slagGa gratis aan de slag

Alle variabelen discretiseren

In plaats van de continue variabelen één voor één te discretiseren, is het handiger om dit automatisch te doen. Om in Python een lijst van alle kolommen te krijgen, kun je

variables  = basetable.columns

Alleen variabelen die continu zijn moeten worden gediscretiseerd. Je kunt controleren of variabelen gediscretiseerd moeten worden door na te gaan of ze meer dan een vooraf bepaald aantal verschillende waarden hebben.

Deze oefening maakt deel uit van de cursus

Introductie tot Predictive Analytics in Python

Cursus bekijken

Oefeninstructies

  • Maak een lijst variables met alle kolomnamen van de basetable.
  • Maak een lus die alle variabelen in de lijst variables controleert.
  • Vul de if-statement aan zodat alleen variabelen met meer dan 5 verschillende waarden worden gediscretiseerd.
  • Deel de continue variabelen in 10 groepen in met de qcut-methode.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Print the columns in the original basetable
print(basetable.columns)

# Get all the variable names except "target"
variables = list(____.____)
variables.remove("target")

# Loop through all the variables and discretize in 10 bins if there are more than 5 different values
for variable in ____:
    if len(basetable.groupby(____))>____:
        new_variable = "disc_" + variable
        basetable[new_variable] = pd.qcut(basetable[____], ____)
        
# Print the columns in the new basetable
print(basetable.columns)
Code bewerken en uitvoeren