Aan de slagGa gratis aan de slag

Bag-of-words voor boektitels

PyBooks heeft nu een lijst met boektitels die gecodeerd moeten worden voor verdere analyse. Het datateam denkt dat het Bag of Words (BoW)-model hiervoor het beste werkt.

De volgende pakketten zijn alvast voor je geïmporteerd: torch, torchtext.

Deze oefening maakt deel uit van de cursus

Deep Learning voor tekst met PyTorch

Cursus bekijken

Oefeninstructies

  • Importeer de klasse CountVectorizer om bag-of-words te implementeren.
  • Initialiseer een object van de klasse die je hebt geïmporteerd en gebruik dit object om de titles om te zetten naar een matrixrepresentatie.
  • Extraheer en toon de eerste vijf featurenamen en gecodeerde titels met de methode get_feature_names_out().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import from sklearn
from sklearn.feature_extraction.text import ____

titles = ['The Great Gatsby','To Kill a Mockingbird','1984','The Catcher in the Rye','The Hobbit', 'Great Expectations']

# Initialize Bag-of-words with the list of book titles
vectorizer = ____()
bow_encoded_titles = ____.fit_transform(____)

# Extract and print the first five features
print(vectorizer.____[:5])
print(bow_encoded_titles.toarray()[0, :5])
Code bewerken en uitvoeren