IniziaInizia gratis

Analizzare dimensionalità e preprocessing

In questo esercizio ti viene fornito un lem_corpus che contiene le versioni pre-processate dei claim dei film dell'esercizio precedente. In altre parole, i claim sono stati convertiti in minuscolo, lemmatizzati e le stopword sono state rimosse.

Il tuo compito è generare la rappresentazione bag-of-words bow_lem_matrix per questi claim lemmatizzati e confrontarne la forma con quella di bow_matrix ottenuta nell'esercizio precedente. I primi cinque claim lemmatizzati in lem_corpus sono stati stampati in console per permetterti di esaminarli.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la classe CountVectorizer da sklearn.
  • Istanzia un oggetto CountVectorizer. Chiamalo vectorizer.
  • Usando fit_transform(), genera bow_lem_matrix per lem_corpus.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)
Modifica ed esegui il codice