Agrupando valores em faixas (binning)
Para muitas variáveis contínuas, o valor exato importa menos do que a faixa (ou "balde") em que o número cai. Isso pode ser útil ao criar gráficos ou simplificar seus modelos de Machine Learning. É usado principalmente em variáveis contínuas em que a precisão não é a maior preocupação, por exemplo: idade, altura, salários.
As faixas (bins) são criadas com pd.cut(df['column_name'], bins), em que bins pode ser um inteiro especificando o número de faixas igualmente espaçadas, ou uma lista com os limites das faixas.
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Bin the continuous variable ConvertedSalary into 5 bins
so_survey_df['equal_binned'] = ____(so_survey_df['ConvertedSalary'], ____)
# Print the first 5 rows of the equal_binned column
print(so_survey_df[['equal_binned', 'ConvertedSalary']].head())