Raggruppare i valori in intervalli (binning)
Per molte variabili continue, ti interesserà meno il valore numerico esatto e più l’intervallo in cui cade. Questo è utile per creare grafici o per semplificare i tuoi modelli di Machine Learning. Si usa soprattutto con variabili continue quando la massima precisione non è fondamentale, ad esempio età, altezza, salari.
Gli intervalli (bin) si creano con pd.cut(df['column_name'], bins), dove bins può essere un intero che indica il numero di intervalli equidistanti, oppure una lista di soglie che definiscono i confini degli intervalli.
Questo esercizio fa parte del corso
Feature Engineering per il Machine Learning in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Bin the continuous variable ConvertedSalary into 5 bins
so_survey_df['equal_binned'] = ____(so_survey_df['ConvertedSalary'], ____)
# Print the first 5 rows of the equal_binned column
print(so_survey_df[['equal_binned', 'ConvertedSalary']].head())