Analizzare dimensionalità e preprocessing

In questo esercizio ti viene fornito un lem_corpus che contiene le versioni pre-processate dei claim dei film dell'esercizio precedente. In altre parole, i claim sono stati convertiti in minuscolo, lemmatizzati e le stopword sono state rimosse.

Il tuo compito è generare la rappresentazione bag-of-words bow_lem_matrix per questi claim lemmatizzati e confrontarne la forma con quella di bow_matrix ottenuta nell'esercizio precedente. I primi cinque claim lemmatizzati in lem_corpus sono stati stampati in console per permetterti di esaminarli.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza corso

Istruzioni dell'esercizio

Importa la classe CountVectorizer da sklearn.
Istanzia un oggetto CountVectorizer. Chiamalo vectorizer.
Usando fit_transform(), genera bow_lem_matrix per lem_corpus.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)

Modifica ed esegui il codice