ComeçarComece de graça

BOW usando avaliações de produtos

Você praticou BOW em um conjunto de dados pequeno. Agora, vai aplicá-lo a uma amostra de avaliações de produtos da Amazon. Os dados já foram importados para você em reviews. Eles contêm duas colunas. A primeira se chama score e vale 0 quando a avaliação é negativa e 1 quando é positiva. A segunda coluna se chama review e contém o texto da avaliação escrita pelo cliente. Fique à vontade para explorar os dados no IPython Shell.

Sua tarefa é construir um vocabulário BOW usando a coluna review.

Lembre-se de que podemos chamar o método .get_feature_names() no vetorizador para obter a lista de todos os elementos do vocabulário.

Este exercício faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercício

  • Crie um objeto CountVectorizer, especificando o número máximo de features.
  • Faça o fit do vetorizador.
  • Transforme usando o vetorizador ajustado.
  • Crie um DataFrame convertendo a matriz esparsa para um array denso e garanta que os nomes das colunas sejam especificados corretamente.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify max features 
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())
Editar e executar o código