Werte in Bins einteilen
Bei vielen kontinuierlichen Werten ist der exakte Zahlenwert weniger wichtig als die Gruppe (Bucket), in die er fällt. Das ist nützlich beim Visualisieren oder um Machine-Learning-Modelle zu vereinfachen. Meistens wird das bei kontinuierlichen Variablen eingesetzt, bei denen Genauigkeit nicht oberste Priorität hat, z. B. Alter, Körpergröße oder Lohn.
Bins erstellst du mit pd.cut(df['column_name'], bins), wobei bins entweder eine ganze Zahl für die Anzahl gleich breiter Bins ist oder eine Liste mit den Bin-Grenzen.
Diese Übung ist Teil des Kurses
Feature Engineering für Machine Learning in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Bin the continuous variable ConvertedSalary into 5 bins
so_survey_df['equal_binned'] = ____(so_survey_df['ConvertedSalary'], ____)
# Print the first 5 rows of the equal_binned column
print(so_survey_df[['equal_binned', 'ConvertedSalary']].head())