Eliminación de valores atípicos basada en porcentaje
Una manera de asegurarte de que una pequeña porción de datos no tenga un efecto excesivamente negativo es eliminar un cierto porcentaje de los valores más grandes y/o más pequeños de la columna. Esto se puede lograr encontrando el cuantil correspondiente y recortando los datos con una máscara. Este enfoque es especialmente útil si te preocupa que los valores más altos de tu conjunto de datos deban evitarse. Al usar este enfoque, recuerda que, aunque no haya valores atípicos, igualmente se eliminará el mismo porcentaje superior N del conjunto de datos.
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Instrucciones del ejercicio
- Encuentra el cuantil 95 de la columna
ConvertedSalary. - Recorta el DataFrame
so_numeric_dfpara conservar todas las filas dondeConvertedSalarysea menor que su cuantil 95. - Representa el histograma de
so_numeric_df[['ConvertedSalary']]. - Representa el histograma de
trimmed_df[['ConvertedSalary']].
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Find the 95th quantile
quantile = so_numeric_df['ConvertedSalary'].____(____)
# Trim the outliers
trimmed_df = so_numeric_df[so_numeric_df['ConvertedSalary'] < ____]
# The original histogram
so_numeric_df[['ConvertedSalary']].____()
plt.show()
plt.clf()
# The trimmed histogram
trimmed_df[['ConvertedSalary']].____()
plt.show()