Criando novas features
Feature engineering também inclui a criação de novas features. Criar novas features é importante, já que o modelo depende delas para obter precisão nas previsões. Neste exercício, você vai verificar propriedades de três colunas que aparecem como inteiros nos dados, mas representam valores categóricos. Essas três colunas são: search_engine_type, product_type e advertiser_type. Você vai criar features de contagem para essas 3 colunas, além de device_id e site_id. Essas features de contagem representam o número de cliques para cada uma dessas colunas e serão usadas depois para predição.
O módulo pandas está disponível como pd no seu ambiente de trabalho e o DataFrame de exemplo está carregado como df.
Este exercício faz parte do curso
Prevendo CTR com Machine Learning em Python
Instruções do exercício
- Imprima o número total de valores e o número de valores únicos para cada feature na lista
feature_list. - Crie novas features a partir das features em
new_feature_list, contando o número de cliques para cada feature usando.transform().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Get counts of total and unique values for given features
feature_list = ["search_engine_type", "product_type", "advertiser_type"]
for feature in feature_list:
print(df[feature].____)
print(df[feature].____)
# Define new features as counts
new_feature_list = ['device_id', 'site_id'] + feature_list
for new_feature in new_feature_list:
df[new_feature + '_count'] = df.____(
new_feature)['click'].____("count")
print(df.head(5))