ComeçarComece de graça

Codificando colunas categóricas III: DictVectorizer

Certo, um último truque antes de você mergulhar em pipelines. O processo em duas etapas que você acabou de ver — LabelEncoder seguido por OneHotEncoder — pode ser simplificado usando um DictVectorizer.

Usar um DictVectorizer em um DataFrame convertido para dicionário permite fazer label encoding e one-hot encoding de uma vez só.

Sua tarefa é colocar essa estratégia em prática neste exercício!

Este exercício faz parte do curso

Extreme Gradient Boosting com XGBoost

Ver curso

Instruções do exercício

  • Importe DictVectorizer de sklearn.feature_extraction.
  • Converta df em um dicionário chamado df_dict usando o método .to_dict() com "records" como argumento.
  • Crie uma instância de DictVectorizer chamada dv com o argumento nomeado sparse=False.
  • Aplique o DictVectorizer em df_dict usando o método .fit_transform().
  • Clique em "Enviar Resposta" para imprimir as cinco primeiras linhas resultantes e o vocabulário.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import DictVectorizer
____

# Convert df into a dictionary: df_dict
df_dict = ____

# Create the DictVectorizer object: dv
dv = ____

# Apply dv on df: df_encoded
df_encoded = ____

# Print the resulting first five rows
print(df_encoded[:5,:])

# Print the vocabulary
print(dv.vocabulary_)
Editar e executar o código