ComeçarComece de graça

Codificação one-hot de colunas específicas

Uma concessionária de carros usados daqui precisa da sua ajuda pra estimar o preço de venda dos carros deles. Se você usar a codificação one-hot em todo o conjunto de dados “ used_cars ”, o novo conjunto de dados vai ter mais de 1.200 colunas. Você está preocupado que isso possa causar problemas ao treinar seus modelos de machine learning para prever preços. Você decidiu tentar uma abordagem mais simples e usar apenas a codificação one-hot em algumas colunas.

Este exercício faz parte do curso

Trabalhando com dados categóricos em Python

Ver curso

Instruções do exercício

  • Crie um novo conjunto de dados, used_cars_simple, com codificação one-hot para essas colunas: "manufacturer_name" e "transmission" (nessa ordem).
  • Defina o prefixo de todas as novas colunas como "dummy", para que você possa filtrar facilmente as colunas recém-criadas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
  used_cars,
  # Specify the columns from the instructions
  ____,
  # Set the prefix
  ____
)

# Print the shape of the new dataset
print(used_cars_simple.shape)
Editar e executar o código