Analisando dimensionalidade e pré-processamento

Neste exercício, você recebeu um lem_corpus que contém as versões pré-processadas dos slogans de filmes do exercício anterior. Em outras palavras, os slogans foram colocados em minúsculas, lematizados e as stopwords foram removidas.

Sua tarefa é gerar a representação de bag of words bow_lem_matrix para esses slogans lematizados e comparar sua forma com a de bow_matrix obtida no exercício anterior. Os cinco primeiros slogans lematizados em lem_corpus foram impressos no console para você analisar.

Este exercicio faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercicio

Importe a classe CountVectorizer de sklearn.
Instancie um objeto CountVectorizer. Dê a ele o nome vectorizer.
Usando fit_transform(), gere bow_lem_matrix para lem_corpus.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)

Editar e Executar Código