BOW usando avaliações de produtos

Você praticou BOW em um conjunto de dados pequeno. Agora, vai aplicá-lo a uma amostra de avaliações de produtos da Amazon. Os dados já foram importados para você em reviews. Eles contêm duas colunas. A primeira se chama score e vale 0 quando a avaliação é negativa e 1 quando é positiva. A segunda coluna se chama review e contém o texto da avaliação escrita pelo cliente. Fique à vontade para explorar os dados no IPython Shell.

Sua tarefa é construir um vocabulário BOW usando a coluna review.

Lembre-se de que podemos chamar o método .get_feature_names() no vetorizador para obter a lista de todos os elementos do vocabulário.

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercicio

Crie um objeto CountVectorizer, especificando o número máximo de features.
Faça o fit do vetorizador.
Transforme usando o vetorizador ajustado.
Crie um DataFrame convertendo a matriz esparsa para um array denso e garanta que os nomes das colunas sejam especificados corretamente.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify max features 
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())

Editar e Executar Código