ComeçarComece gratuitamente

Identificação de recursos para padronização

Neste exercício, você investigará a variação das colunas no conjunto de dados UFO para determinar quais recursos devem ser padronizados. Depois de analisar as variações das colunas seconds e minutes, você verá que a variação da coluna seconds é extremamente alta. Como seconds e minutes estão relacionados entre si (um problema que trataremos quando selecionarmos os recursos para modelagem), vamos normalizar o registro da coluna seconds.

Este exercício faz parte do curso

Pré-processamento para aprendizado de máquina em Python

Ver Curso

Instruções de exercício

  • Calcule a variação nas colunas seconds e minutes e observe atentamente os resultados.
  • Execute a normalização de log na coluna seconds, transformando-a em uma nova coluna chamada seconds_log.
  • Imprima a variação da coluna seconds_log.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Check the variance of the seconds and minutes columns
print(____)

# Log normalize the seconds column
ufo["seconds_log"] = ____

# Print out the variance of just the seconds_log column
print(____)
Editar e executar código