BoW-model voor filmtaglines
In deze oefening krijg je een corpus met meer dan 7000 filmtaglines. Jouw taak is om de bag-of-words-representatie bow_matrix voor deze taglines te genereren. Voor deze oefening slaan we de tekstvoorbewerking over en maken we bow_matrix direct.
We onderzoeken ook de vorm van de resulterende bow_matrix. De eerste vijf taglines in corpus zijn al naar de console geprint zodat je ze kunt bekijken.
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Oefeninstructies
- Importeer de klasse
CountVectorizeruitsklearn. - Instantier een
CountVectorizer-object. Noem hetvectorizer. - Gebruik
fit_transform()ombow_matrixte genereren voorcorpus.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Print the shape of bow_matrix
print(bow_matrix.shape)