Analisando dimensionalidade e pré-processamento
Neste exercício, você recebeu um lem_corpus que contém as versões pré-processadas dos slogans de filmes do exercício anterior. Em outras palavras, os slogans foram colocados em minúsculas, lematizados e as stopwords foram removidas.
Sua tarefa é gerar a representação de bag of words bow_lem_matrix para esses slogans lematizados e comparar sua forma com a de bow_matrix obtida no exercício anterior. Os cinco primeiros slogans lematizados em lem_corpus foram impressos no console para você analisar.
Este exercício faz parte do curso
Feature Engineering para NLP em Python
Instruções do exercício
- Importe a classe
CountVectorizerdesklearn. - Instancie um objeto
CountVectorizer. Dê a ele o nomevectorizer. - Usando
fit_transform(), gerebow_lem_matrixparalem_corpus.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)
# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)