Codificando colunas categóricas III: DictVectorizer

Certo, um último truque antes de você mergulhar em pipelines. O processo em duas etapas que você acabou de ver — LabelEncoder seguido por OneHotEncoder — pode ser simplificado usando um DictVectorizer.

Usar um DictVectorizer em um DataFrame convertido para dicionário permite fazer label encoding e one-hot encoding de uma vez só.

Sua tarefa é colocar essa estratégia em prática neste exercício!

Este exercicio faz parte do curso

Extreme Gradient Boosting com XGBoost

Ver curso

Instruções do exercicio

Importe DictVectorizer de sklearn.feature_extraction.
Converta df em um dicionário chamado df_dict usando o método .to_dict() com "records" como argumento.
Crie uma instância de DictVectorizer chamada dv com o argumento nomeado sparse=False.
Aplique o DictVectorizer em df_dict usando o método .fit_transform().
Clique em "Enviar Resposta" para imprimir as cinco primeiras linhas resultantes e o vocabulário.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import DictVectorizer
____

# Convert df into a dictionary: df_dict
df_dict = ____

# Create the DictVectorizer object: dv
dv = ____

# Apply dv on df: df_encoded
df_encoded = ____

# Print the resulting first five rows
print(df_encoded[:5,:])

# Print the vocabulary
print(dv.vocabulary_)

Editar e Executar Código