IniziaInizia gratis

Discretizzare tutte le variabili

Invece di discretizzare le variabili continue una per una, è più semplice farlo in modo automatico. Per ottenere l’elenco di tutte le colonne in Python, puoi usare

variables  = basetable.columns

Solo le variabili continue dovrebbero essere discretizzate. Puoi verificare se una variabile va discretizzata controllando se ha più di un numero predefinito di valori diversi.

Questo esercizio fa parte del corso

Introduzione alla Predictive Analytics in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una lista variables contenente tutti i nomi delle colonne della basetable.
  • Crea un ciclo che controlli tutte le variabili nella lista variables.
  • Completa l’istruzione if in modo che vengano discretizzate solo le variabili con più di 5 valori diversi.
  • Raggruppa le variabili continue in 10 intervalli usando il metodo qcut.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Print the columns in the original basetable
print(basetable.columns)

# Get all the variable names except "target"
variables = list(____.____)
variables.remove("target")

# Loop through all the variables and discretize in 10 bins if there are more than 5 different values
for variable in ____:
    if len(basetable.groupby(____))>____:
        new_variable = "disc_" + variable
        basetable[new_variable] = pd.qcut(basetable[____], ____)
        
# Print the columns in the new basetable
print(basetable.columns)
Modifica ed esegui il codice