Discretizzare tutte le variabili
Invece di discretizzare le variabili continue una per una, è più semplice farlo in modo automatico. Per ottenere l’elenco di tutte le colonne in Python, puoi usare
variables = basetable.columns
Solo le variabili continue dovrebbero essere discretizzate. Puoi verificare se una variabile va discretizzata controllando se ha più di un numero predefinito di valori diversi.
Questo esercizio fa parte del corso
Introduzione alla Predictive Analytics in Python
Istruzioni dell'esercizio
- Crea una lista
variablescontenente tutti i nomi delle colonne della basetable. - Crea un ciclo che controlli tutte le variabili nella lista
variables. - Completa l’istruzione
ifin modo che vengano discretizzate solo le variabili con più di 5 valori diversi. - Raggruppa le variabili continue in 10 intervalli usando il metodo
qcut.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Print the columns in the original basetable
print(basetable.columns)
# Get all the variable names except "target"
variables = list(____.____)
variables.remove("target")
# Loop through all the variables and discretize in 10 bins if there are more than 5 different values
for variable in ____:
if len(basetable.groupby(____))>____:
new_variable = "disc_" + variable
basetable[new_variable] = pd.qcut(basetable[____], ____)
# Print the columns in the new basetable
print(basetable.columns)