ComeçarComece de graça

Convertendo variáveis categóricas

Como o sklearn exige recursos numéricos como entrada para os modelos, é importante codificar variáveis categóricas em variáveis numéricas. A técnica mais comum, chamada "one-hot encoding", é simples, mas consome muita memória. Para isso, você vai usar a técnica de hashing, que mapeia entradas categóricas para numéricas, em cada coluna categórica.

O módulo pandas está disponível como pd no seu ambiente de trabalho e o DataFrame de exemplo está carregado como df.

Este exercício faz parte do curso

Prevendo CTR com Machine Learning em Python

Ver curso

Instruções do exercício

  • Selecione as colunas categóricas filtrando pelo tipo de dado.
  • Aplique uma função de hash em cada uma das colunas categóricas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Get categorical columns
categorical_cols = df.____(
  include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)

# Iterate over categorical columns and apply hash function
for col in ____:
	df[col] = df[col].____(lambda x: ____(x))

# Print examples of new output
print(df.head(5))
Editar e executar o código