BOW usando avaliações de produtos
Você praticou BOW em um conjunto de dados pequeno. Agora, vai aplicá-lo a uma amostra de avaliações de produtos da Amazon. Os dados já foram importados para você em reviews. Eles contêm duas colunas. A primeira se chama score e vale 0 quando a avaliação é negativa e 1 quando é positiva. A segunda coluna se chama review e contém o texto da avaliação escrita pelo cliente. Fique à vontade para explorar os dados no IPython Shell.
Sua tarefa é construir um vocabulário BOW usando a coluna review.
Lembre-se de que podemos chamar o método .get_feature_names() no vetorizador para obter a lista de todos os elementos do vocabulário.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Crie um objeto CountVectorizer, especificando o número máximo de features.
- Faça o fit do vetorizador.
- Transforme usando o vetorizador ajustado.
- Crie um DataFrame convertendo a matriz esparsa para um array denso e garanta que os nomes das colunas sejam especificados corretamente.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify max features
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())