LoslegenKostenlos loslegen

Bag-of-Words für Buchtitel

PyBooks hat jetzt eine Liste von Buchtiteln, die für weitere Analysen kodiert werden müssen. Das Data-Team hält das Bag-of-Words-(BoW)-Modell für den besten Ansatz.

Die folgenden Pakete wurden für dich importiert: torch, torchtext.

Diese Übung ist Teil des Kurses

Deep Learning für Text mit PyTorch

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Klasse CountVectorizer, um Bag-of-Words zu implementieren.
  • Initialisiere ein Objekt der importierten Klasse und verwandle damit die titles in eine Matrixdarstellung.
  • Extrahiere und zeige die ersten fünf Feature-Namen und kodierten Titel mit der Methode get_feature_names_out() an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import from sklearn
from sklearn.feature_extraction.text import ____

titles = ['The Great Gatsby','To Kill a Mockingbird','1984','The Catcher in the Rye','The Hobbit', 'Great Expectations']

# Initialize Bag-of-words with the list of book titles
vectorizer = ____()
bow_encoded_titles = ____.fit_transform(____)

# Extract and print the first five features
print(vectorizer.____[:5])
print(bow_encoded_titles.toarray()[0, :5])
Code bearbeiten und ausführen