Modello BoW per gli slogan dei film
In questo esercizio ti viene fornito un corpus con oltre 7000 slogan di film. Il tuo compito è generare la rappresentazione bag-of-words bow_matrix per questi slogan. Per questo esercizio, ignoreremo la fase di pre-elaborazione del testo e genereremo direttamente bow_matrix.
Esamineremo anche la forma della bow_matrix risultante. Le prime cinque frasi in corpus sono già state stampate in console per permetterti di esaminarle.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Istruzioni dell'esercizio
- Importa la classe
CountVectorizerdasklearn. - Istanzia un oggetto
CountVectorizer. Chiamalovectorizer. - Usando
fit_transform(), generabow_matrixpercorpus.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Print the shape of bow_matrix
print(bow_matrix.shape)