Codificação one-hot de colunas específicas
Uma concessionária de carros usados daqui precisa da sua ajuda pra estimar o preço de venda dos carros deles. Se você usar a codificação one-hot em todo o conjunto de dados “ used_cars
”, o novo conjunto de dados vai ter mais de 1.200 colunas. Você está preocupado que isso possa causar problemas ao treinar seus modelos de machine learning para prever preços. Você decidiu tentar uma abordagem mais simples e usar apenas a codificação one-hot em algumas colunas.
Este exercício faz parte do curso
Trabalhando com dados categóricos em Python
Instruções do exercício
- Crie um novo conjunto de dados,
used_cars_simple
, com codificação one-hot para essas colunas:"manufacturer_name"
e"transmission"
(nessa ordem). - Defina o prefixo de todas as novas colunas como
"dummy"
, para que você possa filtrar facilmente as colunas recém-criadas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
used_cars,
# Specify the columns from the instructions
____,
# Set the prefix
____
)
# Print the shape of the new dataset
print(used_cars_simple.shape)