Codificando colunas categóricas III: DictVectorizer
Certo, um último truque antes de você mergulhar em pipelines. O processo em duas etapas que você acabou de ver — LabelEncoder seguido por OneHotEncoder — pode ser simplificado usando um DictVectorizer.
Usar um DictVectorizer em um DataFrame convertido para dicionário permite fazer label encoding e one-hot encoding de uma vez só.
Sua tarefa é colocar essa estratégia em prática neste exercício!
Este exercício faz parte do curso
Extreme Gradient Boosting com XGBoost
Instruções do exercício
- Importe
DictVectorizerdesklearn.feature_extraction. - Converta
dfem um dicionário chamadodf_dictusando o método.to_dict()com"records"como argumento. - Crie uma instância de
DictVectorizerchamadadvcom o argumento nomeadosparse=False. - Aplique o
DictVectorizeremdf_dictusando o método.fit_transform(). - Clique em "Enviar Resposta" para imprimir as cinco primeiras linhas resultantes e o vocabulário.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import DictVectorizer
____
# Convert df into a dictionary: df_dict
df_dict = ____
# Create the DictVectorizer object: dv
dv = ____
# Apply dv on df: df_encoded
df_encoded = ____
# Print the resulting first five rows
print(df_encoded[:5,:])
# Print the vocabulary
print(dv.vocabulary_)