Especifique o comprimento da sequência de tokens com BOW

Vimos no vídeo que, ao especificar diferentes comprimentos de tokens — os chamados n-grams —, conseguimos capturar melhor o contexto, o que pode ser muito importante.

Neste exercício, você vai trabalhar com uma amostra das avaliações de produtos da Amazon. Sua tarefa é construir um vocabulário BOW usando a coluna review e especificar o comprimento da sequência de tokens.

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercicio

Construa o vetorizador, especificando o comprimento da sequência de tokens para uni e bigramas.
Faça o fit do vetorizador.
Transforme o vetorizador já ajustado.
No DataFrame, certifique-se de especificar corretamente os nomes das colunas.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())

Editar e Executar Código