Codificando variáveis categóricas
Há algumas colunas no conjunto de dados de UFOs que precisam ser codificadas antes de serem modeladas com scikit-learn. Você vai fazer essa transformação aqui, usando métodos de codificação binária e one-hot.
Este exercício faz parte do curso
Pré-processamento para Machine Learning em Python
Instruções do exercício
- Usando
apply(), escreva uma funçãolambdacondicional que retorne1se o valor for"us", caso contrário retorne 0. - Exiba a quantidade de valores
.unique()na colunatype. - Usando
pd.get_dummies(), crie um conjunto one-hot codificado da colunatype. - Por fim, use
pd.concat()para concatenar as variáveis codificadas emtype_setao conjunto de dadosufo.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Use pandas to encode us values as 1 and others as 0
ufo["country_enc"] = ufo["country"].____
# Print the number of unique type values
print(len(____.unique()))
# Create a one-hot encoded set of the type values
type_set = ____
# Concatenate this set back to the ufo DataFrame
ufo = pd.concat([____, ____], axis=1)