ComeçarComece gratuitamente

Colunas específicas de codificação de um ponto quente

Uma concessionária local de carros usados quer a sua ajuda para prever o preço de venda dos veículos. Se você usar a codificação one-hot em todo o conjunto de dados used_cars, o novo conjunto de dados terá mais de 1.200 colunas. Você está preocupado que isso possa causar problemas ao treinar seus modelos de machine learning para prever preços. Você decidiu tentar uma abordagem mais simples e usar apenas a codificação de um único disparo em algumas colunas.

Este exercício faz parte do curso

Trabalhando com dados categóricos em Python

Ver Curso

Instruções de exercício

  • Crie um novo conjunto de dados, used_cars_simple, com codificação de um único ponto para estas colunas: "manufacturer_name" e "transmission" (nesta ordem).
  • Defina o prefixo de todas as novas colunas como "dummy", para que você possa filtrar facilmente as colunas recém-criadas.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
  used_cars,
  # Specify the columns from the instructions
  ____,
  # Set the prefix
  ____
)

# Print the shape of the new dataset
print(used_cars_simple.shape)
Editar e executar código