Transformaciones en entrenamiento y prueba (I)
Hasta ahora has creado escaladores basados en una columna y luego has aplicado ese escalado a los mismos datos con los que se entrenó. Al crear modelos de Machine Learning, normalmente construirás tus modelos con datos históricos (conjunto de entrenamiento) y aplicarás tu modelo a datos nuevos no vistos (conjunto de prueba). En estos casos, debes asegurarte de aplicar el mismo escalado tanto a los datos de entrenamiento como a los de prueba.
En la práctica, para lograrlo entrenas el escalador con el conjunto de entrenamiento y conservas ese escalador entrenado para aplicarlo al conjunto de prueba. Nunca debes volver a entrenar un escalador con el conjunto de prueba.
Para este ejercicio y el siguiente, dividimos el DataFrame so_numeric_df en conjuntos de entrenamiento (so_train_numeric) y de prueba (so_test_numeric).
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Instrucciones del ejercicio
- Instancia
StandardScaler()comoSS_scaler. - Ajusta el
StandardScalersobre la columnaAge. - Transforma la columna
Ageen el conjunto de prueba (so_test_numeric).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import StandardScaler
from sklearn.preprocessing import StandardScaler
# Apply a standard scaler to the data
SS_scaler = ____
# Fit the standard scaler to the data
____
# Transform the test data using the fitted scaler
so_test_numeric['Age_ss'] = ____
print(so_test_numeric[['Age', 'Age_ss']].head())