Dimensies en preprocessing analyseren

In deze oefening krijg je een lem_corpus, met de voorbewerkte versies van de filmtaglines uit de vorige oefening. Met andere woorden: de taglines zijn naar kleine letters omgezet, gelemmatiseerd en stopwoorden zijn verwijderd.

Jouw taak is om de bag-of-words-representatie bow_lem_matrix te genereren voor deze gelemmatiseerde taglines en de vorm daarvan te vergelijken met die van bow_matrix uit de vorige oefening. De eerste vijf gelemmatiseerde taglines in lem_corpus zijn alvast in de console afgedrukt zodat je ze kunt bekijken.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Bekijk cursus

Oefeninstructies

Importeer de klasse CountVectorizer uit sklearn.
Maak een CountVectorizer-object. Noem het vectorizer.
Gebruik fit_transform() om bow_lem_matrix te genereren voor lem_corpus.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)

Code bewerken en uitvoeren