Vetores BoW para críticas de filmes
Neste exercício, você recebeu duas Series do pandas, X_train e X_test, que contêm críticas de filmes. Elas representam, respectivamente, os dados de treino e de teste. Sua tarefa é pré-processar as críticas e gerar vetores BoW para esses dois conjuntos usando CountVectorizer.
Depois de gerar as matrizes de vetores BoW X_train_bow e X_test_bow, estaremos em uma ótima posição para aplicar um modelo de Machine Learning e realizar análise de sentimento.
Este exercício faz parte do curso
Feature Engineering para NLP em Python
Instruções do exercício
- Importe
CountVectorizerda bibliotecasklearn. - Crie um objeto
CountVectorizerchamadovectorizer. Garanta que todas as palavras sejam convertidas para minúsculas e que as stopwords emenglishsejam removidas. - Usando
X_train, faça o ajuste dovectorizere depois use-o para transformarX_train, gerando o conjunto de vetores BoWX_train_bow. - Transforme
X_testusandovectorizerpara gerar o conjunto de vetores BoWX_test_bow.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)
# Fit and transform X_train
X_train_bow = vectorizer.____(____)
# Transform X_test
X_test_bow = vectorizer.____(____)
# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)