LoslegenKostenlos loslegen

TF-IDF auf Buchbeschreibungen anwenden

PyBooks hat mehrere Buchbeschreibungen gesammelt und möchte mit der TF-IDF-Codierungstechnik wichtige Wörter darin identifizieren. So erhoffen sie sich bessere Einblicke in die einzigartigen Merkmale jedes Buchs, um ihr Buchempfehlungssystem zu verbessern.

Die folgenden Pakete wurden bereits für dich importiert: torch, torchtext.

Diese Übung ist Teil des Kurses

Deep Learning für Text mit PyTorch

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Klasse TfidfVectorizer aus sklearn.feature_extraction.text, die eine Sammlung roher Dokumente in eine Matrix aus TF-IDF-Features umwandelt.
  • Erzeuge eine Instanz dieser Klasse und verwende sie dann, um die descriptions in eine TF-IDF-Matrix von Vektoren zu kodieren.
  • Rufe die ersten fünf Feature-Namen vom vectorizer sowie die kodierten Vektoren aus tfidf_encoded_descriptions ab und gib sie aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Importing TF-IDF from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TF-IDF encoding vectorizer
vectorizer = ____()
tfidf_encoded_descriptions = vectorizer.____(descriptions)

# Extract and print the first five features
print(____.get_feature_names_out()[:5])
print(____.toarray()[0, :5])
Code bearbeiten und ausführen