BoW-model voor filmtaglines

In deze oefening krijg je een corpus met meer dan 7000 filmtaglines. Jouw taak is om de bag-of-words-representatie bow_matrix voor deze taglines te genereren. Voor deze oefening slaan we de tekstvoorbewerking over en maken we bow_matrix direct.

We onderzoeken ook de vorm van de resulterende bow_matrix. De eerste vijf taglines in corpus zijn al naar de console geprint zodat je ze kunt bekijken.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Bekijk cursus

Oefeninstructies

Importeer de klasse CountVectorizer uit sklearn.
Instantier een CountVectorizer-object. Noem het vectorizer.
Gebruik fit_transform() om bow_matrix te genereren voor corpus.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)

# Print the shape of bow_matrix
print(bow_matrix.shape)

Code bewerken en uitvoeren