Aan de slagGa gratis aan de slag

Waarden indelen in bins

Bij veel continue waarden is de exacte numerieke waarde minder belangrijk dan in welk interval (bin) deze valt. Dat is handig bij het plotten van waarden of om je Machine Learning-modellen te vereenvoudigen. Dit wordt vooral gebruikt voor continue variabelen waarbij nauwkeurigheid niet het belangrijkste is, zoals leeftijd, lengte of loon.

Bins maak je met pd.cut(df['column_name'], bins), waarbij bins een geheel getal kan zijn (het aantal gelijk verdeelde bins) of een lijst met grenswaarden.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Bin the continuous variable ConvertedSalary into 5 bins
so_survey_df['equal_binned'] = ____(so_survey_df['ConvertedSalary'], ____)

# Print the first 5 rows of the equal_binned column
print(so_survey_df[['equal_binned', 'ConvertedSalary']].head())
Code bewerken en uitvoeren