Aan de slagGa gratis aan de slag

Dimensies en preprocessing analyseren

In deze oefening krijg je een lem_corpus, met de voorbewerkte versies van de filmtaglines uit de vorige oefening. Met andere woorden: de taglines zijn naar kleine letters omgezet, gelemmatiseerd en stopwoorden zijn verwijderd.

Jouw taak is om de bag-of-words-representatie bow_lem_matrix te genereren voor deze gelemmatiseerde taglines en de vorm daarvan te vergelijken met die van bow_matrix uit de vorige oefening. De eerste vijf gelemmatiseerde taglines in lem_corpus zijn alvast in de console afgedrukt zodat je ze kunt bekijken.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Cursus bekijken

Oefeninstructies

  • Importeer de klasse CountVectorizer uit sklearn.
  • Maak een CountVectorizer-object. Noem het vectorizer.
  • Gebruik fit_transform() om bow_lem_matrix te genereren voor lem_corpus.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)
Code bewerken en uitvoeren