Transformaciones en entrenamiento y prueba (II)
De forma similar a aplicar el mismo escalado tanto al conjunto de entrenamiento como al de prueba, si has eliminado valores atípicos del conjunto de entrenamiento, probablemente quieras hacer lo mismo en el de prueba. Una vez más, asegúrate de usar los umbrales calculados solo a partir del conjunto de entrenamiento para eliminar valores atípicos del conjunto de prueba.
Como en el ejercicio anterior, dividimos el DataFrame so_numeric_df en conjuntos de entrenamiento (so_train_numeric) y de prueba (so_test_numeric).
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Instrucciones del ejercicio
- Calcula la desviación estándar y la media de la columna
ConvertedSalary. - Calcula los límites superior e inferior como tres desviaciones estándar alejadas de la media en ambas direcciones.
- Recorta el DataFrame
so_test_numericpara conservar todas las filas dondeConvertedSalaryesté dentro de los límites inferior y superior.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____
cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off
# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
& (so_test_numeric['ConvertedSalary'] > ____)]