Identificar características para la normalización
En este ejercicio, investigarás la varianza de las columnas del conjunto de datos UFO para determinar qué características deben normalizarse. Tras echar un vistazo a las varianzas de las columnas seconds
y minutes
, verás que la varianza de la columna seconds
es extremadamente alta. Como seconds
y minutes
están relacionados entre sí (cuestión que trataremos cuando seleccionemos las características para el modelado), vamos a normalizar logarítmicamente la columna seconds
.
Este ejercicio forma parte del curso
Preprocesamiento para machine learning en Python
Instrucciones de ejercicio
- Calcula la varianza en las columnas
seconds
yminutes
y fíjate bien en los resultados. - Realiza la normalización del registro en la columna
seconds
, transformándola en una nueva columna llamadaseconds_log
. - Imprime la varianza de la columna
seconds_log
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Check the variance of the seconds and minutes columns
print(____)
# Log normalize the seconds column
ufo["seconds_log"] = ____
# Print out the variance of just the seconds_log column
print(____)