Codificação de variáveis categóricas
Há algumas colunas no conjunto de dados UFO que precisam ser codificadas antes de poderem ser modeladas pelo scikit-learn. Você fará essa transformação aqui, usando os métodos de codificação binária e one-hot.
Este exercício faz parte do curso
Pré-processamento para aprendizado de máquina em Python
Instruções de exercício
- Usando
apply()
, escreva uma função condicionallambda
que retorne um1
se o valor for"us"
, caso contrário, retorne 0. - Imprima o número de valores de
.unique()
na colunatype
. - Usando
pd.get_dummies()
, crie um conjunto codificado em um único disparo da colunatype
. - Por fim, use
pd.concat()
para concatenar as variáveis codificadas emtype_set
com o conjunto de dadosufo
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Use pandas to encode us values as 1 and others as 0
ufo["country_enc"] = ufo["country"].____
# Print the number of unique type values
print(len(____.unique()))
# Create a one-hot encoded set of the type values
type_set = ____
# Concatenate this set back to the ufo DataFrame
ufo = pd.concat([____, ____], axis=1)