Dimensies en preprocessing analyseren
In deze oefening krijg je een lem_corpus, met de voorbewerkte versies van de filmtaglines uit de vorige oefening. Met andere woorden: de taglines zijn naar kleine letters omgezet, gelemmatiseerd en stopwoorden zijn verwijderd.
Jouw taak is om de bag-of-words-representatie bow_lem_matrix te genereren voor deze gelemmatiseerde taglines en de vorm daarvan te vergelijken met die van bow_matrix uit de vorige oefening. De eerste vijf gelemmatiseerde taglines in lem_corpus zijn alvast in de console afgedrukt zodat je ze kunt bekijken.
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Oefeninstructies
- Importeer de klasse
CountVectorizeruitsklearn. - Maak een
CountVectorizer-object. Noem hetvectorizer. - Gebruik
fit_transform()ombow_lem_matrixte genereren voorlem_corpus.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create CountVectorizer object
____ = ____
# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)
# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)