BOW com n-grams e tamanho do vocabulário
Neste exercício, você vai praticar a construção de um bag-of-words mais uma vez, usando o conjunto de dados reviews de avaliações de produtos da Amazon. Sua tarefa principal será limitar o tamanho do vocabulário e especificar o comprimento da sequência de tokens.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Importe o vetorizador do
sklearn. - Construa o vetorizador e certifique-se de especificar os seguintes parâmetros: o tamanho do vocabulário deve ser limitado a 1000, inclua apenas bigramas e ignore termos que aparecem em mais de 500 documentos.
- Faça o fit do vetorizador na coluna
review. - Crie um DataFrame a partir da representação BOW.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
#Import the vectorizer
from sklearn.____.____ import ____
# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)
# Transform the review
X_review = vect.transform(reviews.review)
# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())