Comece agoraComece grátis

Identificando variáveis para padronização

Neste exercício, você vai investigar a variância das colunas no conjunto de dados de avistamentos de UFO para determinar quais variáveis devem ser padronizadas. Depois de observar as variâncias das colunas seconds e minutes, você verá que a variância de seconds é extremamente alta. Como seconds e minutes estão relacionadas entre si (um ponto que vamos tratar ao selecionar as variáveis para o modelo), vamos aplicar normalização log na coluna seconds.

Este exercicio faz parte do curso

Pré-processamento para Machine Learning em Python

Ver curso

Instruções do exercicio

  • Calcule a variância nas colunas seconds e minutes e analise os resultados com atenção.
  • Faça a normalização log na coluna seconds, transformando-a em uma nova coluna chamada seconds_log.
  • Imprima a variância da coluna seconds_log.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Check the variance of the seconds and minutes columns
print(____)

# Log normalize the seconds column
ufo["seconds_log"] = ____

# Print out the variance of just the seconds_log column
print(____)
Editar e Executar Código