Analizzare dimensionalità e preprocessing
In questo esercizio ti viene fornito un lem_corpus che contiene le versioni pre-processate dei claim dei film dell'esercizio precedente. In altre parole, i claim sono stati convertiti in minuscolo, lemmatizzati e le stopword sono state rimosse.
Il tuo compito è generare la rappresentazione bag-of-words bow_lem_matrix per questi claim lemmatizzati e confrontarne la forma con quella di bow_matrix ottenuta nell'esercizio precedente. I primi cinque claim lemmatizzati in lem_corpus sono stati stampati in console per permetterti di esaminarli.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Istruzioni dell'esercizio
- Importa la classe
CountVectorizerdasklearn. - Istanzia un oggetto
CountVectorizer. Chiamalovectorizer. - Usando
fit_transform(), generabow_lem_matrixperlem_corpus.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)
# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)