ComeçarComece de graça

Mapeando índices de features com nomes de features

No vídeo da lição, vimos que CountVectorizer não necessariamente indexa o vocabulário em ordem alfabética. Neste exercício, você vai aprender a mapear cada índice de feature para seu respectivo nome de feature no vocabulário.

Vamos usar as mesmas três frases sobre leões do vídeo. As frases estão disponíveis em uma lista chamada corpus e já foram impressas no console.

Este exercício faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercício

  • Instancie um objeto CountVectorizer. Dê a ele o nome vectorizer.
  • Usando fit_transform(), gere bow_matrix para corpus.
  • Usando o método get_feature_names(), mapeie os nomes das colunas para a palavra correspondente no vocabulário.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create CountVectorizer object
vectorizer = ____

# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)

# Convert bow_matrix into a DataFrame
bow_df = pd.DataFrame(bow_matrix.toarray())

# Map the column names to vocabulary 
bow_df.columns = vectorizer.____

# Print bow_df
print(bow_df)
Editar e executar o código