Remoção de outliers baseada em porcentagem
Uma forma de garantir que uma pequena porção dos dados não tenha um efeito excessivamente negativo é remover uma certa porcentagem dos maiores e/ou menores valores da coluna. Isso pode ser feito encontrando o quantil relevante e aparando os dados com uma máscara. Essa abordagem é especialmente útil se você acha que os valores mais altos no seu conjunto de dados devem ser evitados. Ao usar essa abordagem, lembre-se de que, mesmo que não haja outliers, ainda assim ela removerá os mesmos N% do topo do conjunto de dados.
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Instruções do exercício
- Encontre o 95º quantil da coluna
ConvertedSalary. - Apare o DataFrame
so_numeric_dfpara manter todas as linhas em queConvertedSalaryé menor que seu 95º quantil. - Plote o histograma de
so_numeric_df[['ConvertedSalary']]. - Plote o histograma de
trimmed_df[['ConvertedSalary']].
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Find the 95th quantile
quantile = so_numeric_df['ConvertedSalary'].____(____)
# Trim the outliers
trimmed_df = so_numeric_df[so_numeric_df['ConvertedSalary'] < ____]
# The original histogram
so_numeric_df[['ConvertedSalary']].____()
plt.show()
plt.clf()
# The trimmed histogram
trimmed_df[['ConvertedSalary']].____()
plt.show()