Tratar los valores atípicos con desviación estándar
Dado un basetable que tiene una variable «age». La edad se introduce manualmente en un formulario en línea por la persona donante y, por tanto, es susceptible de errores de escritura y puede contener valores atípicos. Sustituye todos los valores que sean inferiores a la edad media menos 3 veces la desviación estándar de «age» por ese valor, y sustituye todos los valores que sean superiores a la edad media más 3 veces la desviación estándar de «age» por ese valor.
Este ejercicio forma parte del curso
Análisis predictivo intermedio en Python
Instrucciones del ejercicio
- Imprime el valor máximo de «age».
- Calcula la media y la desviación estándar de «age».
- Calcula los límites inferior y superior usando la regla práctica basada en la desviación estándar.
- Añade una variable «age_mod» a la basetable con los valores atípicos reemplazados, e imprime el nuevo valor máximo de «age _mod».
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Show the maximum age
print(___["___"].___())
# Calculate mean and standard deviation of age
mean_age = ____["____"].____()
std_age = ____["____"].____()
# Calculate the lower and upper limits
lower_limit = ____ - ____ * ____
upper_limit = ____ + ____ * ____
# Add a variable age_no_outliers to the basetable with outliers replaced
basetable["age_mod"] = (pd.Series([____(____(____, ____), ____)
for a in basetable["age"]]))
print(___["___"].___())