ComeçarComece de graça

Remoção de outliers baseada em porcentagem

Uma forma de garantir que uma pequena porção dos dados não tenha um efeito excessivamente negativo é remover uma certa porcentagem dos maiores e/ou menores valores da coluna. Isso pode ser feito encontrando o quantil relevante e aparando os dados com uma máscara. Essa abordagem é especialmente útil se você acha que os valores mais altos no seu conjunto de dados devem ser evitados. Ao usar essa abordagem, lembre-se de que, mesmo que não haja outliers, ainda assim ela removerá os mesmos N% do topo do conjunto de dados.

Este exercício faz parte do curso

Feature Engineering for Machine Learning in Python

Ver curso

Instruções do exercício

  • Encontre o 95º quantil da coluna ConvertedSalary.
  • Apare o DataFrame so_numeric_df para manter todas as linhas em que ConvertedSalary é menor que seu 95º quantil.
  • Plote o histograma de so_numeric_df[['ConvertedSalary']].
  • Plote o histograma de trimmed_df[['ConvertedSalary']].

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Find the 95th quantile
quantile = so_numeric_df['ConvertedSalary'].____(____)

# Trim the outliers
trimmed_df = so_numeric_df[so_numeric_df['ConvertedSalary'] < ____]

# The original histogram
so_numeric_df[['ConvertedSalary']].____()
plt.show()
plt.clf()

# The trimmed histogram
trimmed_df[['ConvertedSalary']].____()
plt.show()
Editar e executar o código