Identificação de recursos para padronização
Neste exercício, você investigará a variação das colunas no conjunto de dados UFO para determinar quais recursos devem ser padronizados. Depois de analisar as variações das colunas seconds
e minutes
, você verá que a variação da coluna seconds
é extremamente alta. Como seconds
e minutes
estão relacionados entre si (um problema que trataremos quando selecionarmos os recursos para modelagem), vamos normalizar o registro da coluna seconds
.
Este exercício faz parte do curso
Pré-processamento para aprendizado de máquina em Python
Instruções de exercício
- Calcule a variação nas colunas
seconds
eminutes
e observe atentamente os resultados. - Execute a normalização de log na coluna
seconds
, transformando-a em uma nova coluna chamadaseconds_log
. - Imprima a variação da coluna
seconds_log
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Check the variance of the seconds and minutes columns
print(____)
# Log normalize the seconds column
ufo["seconds_log"] = ____
# Print out the variance of just the seconds_log column
print(____)