ComenzarEmpieza gratis

Transformaciones en entrenamiento y prueba (II)

De forma similar a aplicar el mismo escalado tanto al conjunto de entrenamiento como al de prueba, si has eliminado valores atípicos del conjunto de entrenamiento, probablemente quieras hacer lo mismo en el de prueba. Una vez más, asegúrate de usar los umbrales calculados solo a partir del conjunto de entrenamiento para eliminar valores atípicos del conjunto de prueba.

Como en el ejercicio anterior, dividimos el DataFrame so_numeric_df en conjuntos de entrenamiento (so_train_numeric) y de prueba (so_test_numeric).

Este ejercicio forma parte del curso

Ingeniería de características para Machine Learning en Python

Ver curso

Instrucciones del ejercicio

  • Calcula la desviación estándar y la media de la columna ConvertedSalary.
  • Calcula los límites superior e inferior como tres desviaciones estándar alejadas de la media en ambas direcciones.
  • Recorta el DataFrame so_test_numeric para conservar todas las filas donde ConvertedSalary esté dentro de los límites inferior y superior.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____

cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off

# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
                             & (so_test_numeric['ConvertedSalary'] > ____)]
Editar y ejecutar código