Colunas específicas de codificação de um ponto quente
Uma concessionária local de carros usados quer a sua ajuda para prever o preço de venda dos veículos. Se você usar a codificação one-hot em todo o conjunto de dados used_cars
, o novo conjunto de dados terá mais de 1.200 colunas. Você está preocupado que isso possa causar problemas ao treinar seus modelos de machine learning para prever preços. Você decidiu tentar uma abordagem mais simples e usar apenas a codificação de um único disparo em algumas colunas.
Este exercício faz parte do curso
Trabalhando com dados categóricos em Python
Instruções de exercício
- Crie um novo conjunto de dados,
used_cars_simple
, com codificação de um único ponto para estas colunas:"manufacturer_name"
e"transmission"
(nesta ordem). - Defina o prefixo de todas as novas colunas como
"dummy"
, para que você possa filtrar facilmente as colunas recém-criadas.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
used_cars,
# Specify the columns from the instructions
____,
# Set the prefix
____
)
# Print the shape of the new dataset
print(used_cars_simple.shape)