Waarden indelen in bins
Bij veel continue waarden is de exacte numerieke waarde minder belangrijk dan in welk interval (bin) deze valt. Dat is handig bij het plotten van waarden of om je Machine Learning-modellen te vereenvoudigen. Dit wordt vooral gebruikt voor continue variabelen waarbij nauwkeurigheid niet het belangrijkste is, zoals leeftijd, lengte of loon.
Bins maak je met pd.cut(df['column_name'], bins), waarbij bins een geheel getal kan zijn (het aantal gelijk verdeelde bins) of een lijst met grenswaarden.
Deze oefening maakt deel uit van de cursus
Feature engineering voor Machine Learning in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Bin the continuous variable ConvertedSalary into 5 bins
so_survey_df['equal_binned'] = ____(so_survey_df['ConvertedSalary'], ____)
# Print the first 5 rows of the equal_binned column
print(so_survey_df[['equal_binned', 'ConvertedSalary']].head())