Identificando variáveis para padronização
Neste exercício, você vai investigar a variância das colunas no conjunto de dados de avistamentos de UFO para determinar quais variáveis devem ser padronizadas. Depois de observar as variâncias das colunas seconds e minutes, você verá que a variância de seconds é extremamente alta. Como seconds e minutes estão relacionadas entre si (um ponto que vamos tratar ao selecionar as variáveis para o modelo), vamos aplicar normalização log na coluna seconds.
Este exercício faz parte do curso
Pré-processamento para Machine Learning em Python
Instruções do exercício
- Calcule a variância nas colunas
secondseminutese analise os resultados com atenção. - Faça a normalização log na coluna
seconds, transformando-a em uma nova coluna chamadaseconds_log. - Imprima a variância da coluna
seconds_log.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Check the variance of the seconds and minutes columns
print(____)
# Log normalize the seconds column
ufo["seconds_log"] = ____
# Print out the variance of just the seconds_log column
print(____)