Modelo BoW para slogans de filmes
Neste exercício, você recebeu um corpus com mais de 7000 slogans de filmes. Sua tarefa é gerar a representação bag of words bow_matrix para esses slogans. Neste exercício, vamos ignorar a etapa de pré-processamento de texto e gerar bow_matrix diretamente.
Também vamos analisar o formato (shape) da bow_matrix resultante. Os cinco primeiros slogans em corpus foram impressos no console para você examinar.
Este exercício faz parte do curso
Feature Engineering para NLP em Python
Instruções do exercício
- Importe a classe
CountVectorizerdesklearn. - Instancie um objeto
CountVectorizer. Dê a ele o nomevectorizer. - Usando
fit_transform(), gerebow_matrixparacorpus.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Print the shape of bow_matrix
print(bow_matrix.shape)