Modello BoW per gli slogan dei film

In questo esercizio ti viene fornito un corpus con oltre 7000 slogan di film. Il tuo compito è generare la rappresentazione bag-of-words bow_matrix per questi slogan. Per questo esercizio, ignoreremo la fase di pre-elaborazione del testo e genereremo direttamente bow_matrix.

Esamineremo anche la forma della bow_matrix risultante. Le prime cinque frasi in corpus sono già state stampate in console per permetterti di esaminarle.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza corso

Istruzioni dell'esercizio

Importa la classe CountVectorizer da sklearn.
Istanzia un oggetto CountVectorizer. Chiamalo vectorizer.
Usando fit_transform(), genera bow_matrix per corpus.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)

# Print the shape of bow_matrix
print(bow_matrix.shape)

Modifica ed esegui il codice