Regrouper des valeurs en classes
Pour de nombreuses valeurs continues, vous vous préoccuperez moins de la valeur numérique exacte que de l’intervalle dans lequel elle se situe. C’est utile pour tracer des graphiques ou simplifier vos modèles de Machine Learning. Cette approche s’applique surtout aux variables continues lorsque la précision n’est pas primordiale, par exemple l’âge, la taille ou les salaires.
Les classes sont créées avec pd.cut(df['column_name'], bins) où bins peut être un entier indiquant le nombre d’intervalles de largeur égale, ou une liste de bornes d’intervalle.
Cet exercice fait partie du cours
Feature engineering pour le Machine Learning en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Bin the continuous variable ConvertedSalary into 5 bins
so_survey_df['equal_binned'] = ____(so_survey_df['ConvertedSalary'], ____)
# Print the first 5 rows of the equal_binned column
print(so_survey_df[['equal_binned', 'ConvertedSalary']].head())