Vetores BoW para críticas de filmes

Neste exercício, você recebeu duas Series do pandas, X_train e X_test, que contêm críticas de filmes. Elas representam, respectivamente, os dados de treino e de teste. Sua tarefa é pré-processar as críticas e gerar vetores BoW para esses dois conjuntos usando CountVectorizer.

Depois de gerar as matrizes de vetores BoW X_train_bow e X_test_bow, estaremos em uma ótima posição para aplicar um modelo de Machine Learning e realizar análise de sentimento.

Este exercício faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercício

Importe CountVectorizer da biblioteca sklearn.
Crie um objeto CountVectorizer chamado vectorizer. Garanta que todas as palavras sejam convertidas para minúsculas e que as stopwords em english sejam removidas.
Usando X_train, faça o ajuste do vectorizer e depois use-o para transformar X_train, gerando o conjunto de vetores BoW X_train_bow.
Transforme X_test usando vectorizer para gerar o conjunto de vetores BoW X_test_bow.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)

# Fit and transform X_train
X_train_bow = vectorizer.____(____)

# Transform X_test
X_test_bow = vectorizer.____(____)

# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)

Editar e executar o código