BOW com n-grams e tamanho do vocabulário

Neste exercício, você vai praticar a construção de um bag-of-words mais uma vez, usando o conjunto de dados reviews de avaliações de produtos da Amazon. Sua tarefa principal será limitar o tamanho do vocabulário e especificar o comprimento da sequência de tokens.

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercicio

Importe o vetorizador do sklearn.
Construa o vetorizador e certifique-se de especificar os seguintes parâmetros: o tamanho do vocabulário deve ser limitado a 1000, inclua apenas bigramas e ignore termos que aparecem em mais de 500 documentos.
Faça o fit do vetorizador na coluna review.
Crie um DataFrame a partir da representação BOW.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

#Import the vectorizer
from sklearn.____.____ import ____

# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)

# Transform the review
X_review = vect.transform(reviews.review)

# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())

Editar e Executar Código