Normalização logarítmica
A padronização é importante para garantir que todos os recursos sejam comparáveis. A normalização logarítmica é um método comum de padronização. Você vai verificar a variância de alguns recursos e calcular a mediana geral das variâncias entre os recursos. Os recursos serão os numéricos, exceto a coluna click, banner_pos, device_type e as colunas search_engine_type, product_type, advertiser_type da última lição, já que elas são na verdade categóricas. Em seguida, você aplicará a normalização logarítmica às colunas com variância maior que a variância mediana e verificará os resultados.
O módulo pandas está disponível como pd no seu workspace e o DataFrame de exemplo está carregado como df.
Este exercício faz parte do curso
Prevendo CTR com Machine Learning em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Select numeric columns and print variance
num_df = df.____(include=['int', 'float'])
filter_cols = ['click', 'banner_pos', 'device_type',
'search_engine_type', 'product_type', 'advertiser_type']
new_df = num_df[num_df.columns[~num_df.columns.____(filter_cols)]]
median = new_df.____.____
print(median)