ComeçarComece de graça

Vetores BoW para críticas de filmes

Neste exercício, você recebeu duas Series do pandas, X_train e X_test, que contêm críticas de filmes. Elas representam, respectivamente, os dados de treino e de teste. Sua tarefa é pré-processar as críticas e gerar vetores BoW para esses dois conjuntos usando CountVectorizer.

Depois de gerar as matrizes de vetores BoW X_train_bow e X_test_bow, estaremos em uma ótima posição para aplicar um modelo de Machine Learning e realizar análise de sentimento.

Este exercício faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercício

  • Importe CountVectorizer da biblioteca sklearn.
  • Crie um objeto CountVectorizer chamado vectorizer. Garanta que todas as palavras sejam convertidas para minúsculas e que as stopwords em english sejam removidas.
  • Usando X_train, faça o ajuste do vectorizer e depois use-o para transformar X_train, gerando o conjunto de vetores BoW X_train_bow.
  • Transforme X_test usando vectorizer para gerar o conjunto de vetores BoW X_test_bow.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)

# Fit and transform X_train
X_train_bow = vectorizer.____(____)

# Transform X_test
X_test_bow = vectorizer.____(____)

# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)
Editar e executar o código