Modelo BoW para slogans de filmes

Neste exercício, você recebeu um corpus com mais de 7000 slogans de filmes. Sua tarefa é gerar a representação bag of words bow_matrix para esses slogans. Neste exercício, vamos ignorar a etapa de pré-processamento de texto e gerar bow_matrix diretamente.

Também vamos analisar o formato (shape) da bow_matrix resultante. Os cinco primeiros slogans em corpus foram impressos no console para você examinar.

Este exercicio faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercicio

Importe a classe CountVectorizer de sklearn.
Instancie um objeto CountVectorizer. Dê a ele o nome vectorizer.
Usando fit_transform(), gere bow_matrix para corpus.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)

# Print the shape of bow_matrix
print(bow_matrix.shape)

Editar e Executar Código