ComenzarEmpieza gratis

Eliminación de valores atípicos basada en porcentaje

Una manera de asegurarte de que una pequeña porción de datos no tenga un efecto excesivamente negativo es eliminar un cierto porcentaje de los valores más grandes y/o más pequeños de la columna. Esto se puede lograr encontrando el cuantil correspondiente y recortando los datos con una máscara. Este enfoque es especialmente útil si te preocupa que los valores más altos de tu conjunto de datos deban evitarse. Al usar este enfoque, recuerda que, aunque no haya valores atípicos, igualmente se eliminará el mismo porcentaje superior N del conjunto de datos.

Este ejercicio forma parte del curso

Ingeniería de características para Machine Learning en Python

Ver curso

Instrucciones del ejercicio

  • Encuentra el cuantil 95 de la columna ConvertedSalary.
  • Recorta el DataFrame so_numeric_df para conservar todas las filas donde ConvertedSalary sea menor que su cuantil 95.
  • Representa el histograma de so_numeric_df[['ConvertedSalary']].
  • Representa el histograma de trimmed_df[['ConvertedSalary']].

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Find the 95th quantile
quantile = so_numeric_df['ConvertedSalary'].____(____)

# Trim the outliers
trimmed_df = so_numeric_df[so_numeric_df['ConvertedSalary'] < ____]

# The original histogram
so_numeric_df[['ConvertedSalary']].____()
plt.show()
plt.clf()

# The trimmed histogram
trimmed_df[['ConvertedSalary']].____()
plt.show()
Editar y ejecutar código