ComeçarComece de graça

Especifique o comprimento da sequência de tokens com BOW

Vimos no vídeo que, ao especificar diferentes comprimentos de tokens — os chamados n-grams —, conseguimos capturar melhor o contexto, o que pode ser muito importante.

Neste exercício, você vai trabalhar com uma amostra das avaliações de produtos da Amazon. Sua tarefa é construir um vocabulário BOW usando a coluna review e especificar o comprimento da sequência de tokens.

Este exercício faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercício

  • Construa o vetorizador, especificando o comprimento da sequência de tokens para uni e bigramas.
  • Faça o fit do vetorizador.
  • Transforme o vetorizador já ajustado.
  • No DataFrame, certifique-se de especificar corretamente os nomes das colunas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())
Editar e executar o código