Especifique o comprimento da sequência de tokens com BOW
Vimos no vídeo que, ao especificar diferentes comprimentos de tokens — os chamados n-grams —, conseguimos capturar melhor o contexto, o que pode ser muito importante.
Neste exercício, você vai trabalhar com uma amostra das avaliações de produtos da Amazon. Sua tarefa é construir um vocabulário BOW usando a coluna review e especificar o comprimento da sequência de tokens.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Construa o vetorizador, especificando o comprimento da sequência de tokens para uni e bigramas.
- Faça o fit do vetorizador.
- Transforme o vetorizador já ajustado.
- No DataFrame, certifique-se de especificar corretamente os nomes das colunas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())