Aan de slagBegin gratis

Waarden indelen in bins

Bij veel continue waarden is de exacte numerieke waarde minder belangrijk dan in welk interval (bin) deze valt. Dat is handig bij het plotten van waarden of om je Machine Learning-modellen te vereenvoudigen. Dit wordt vooral gebruikt voor continue variabelen waarbij nauwkeurigheid niet het belangrijkste is, zoals leeftijd, lengte of loon.

Bins maak je met pd.cut(df['column_name'], bins), waarbij bins een geheel getal kan zijn (het aantal gelijk verdeelde bins) of een lijst met grenswaarden.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Bin the continuous variable ConvertedSalary into 5 bins
so_survey_df['equal_binned'] = ____(so_survey_df['ConvertedSalary'], ____)

# Print the first 5 rows of the equal_binned column
print(so_survey_df[['equal_binned', 'ConvertedSalary']].head())
Code bewerken en uitvoeren