Convertendo variáveis categóricas
Como o sklearn exige recursos numéricos como entrada para os modelos, é importante codificar variáveis categóricas em variáveis numéricas. A técnica mais comum, chamada "one-hot encoding", é simples, mas consome muita memória. Para isso, você vai usar a técnica de hashing, que mapeia entradas categóricas para numéricas, em cada coluna categórica.
O módulo pandas está disponível como pd no seu ambiente de trabalho e o DataFrame de exemplo está carregado como df.
Este exercício faz parte do curso
Prevendo CTR com Machine Learning em Python
Instruções do exercício
- Selecione as colunas categóricas filtrando pelo tipo de dado.
- Aplique uma função de hash em cada uma das colunas categóricas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Get categorical columns
categorical_cols = df.____(
include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)
# Iterate over categorical columns and apply hash function
for col in ____:
df[col] = df[col].____(lambda x: ____(x))
# Print examples of new output
print(df.head(5))