TF-IDF auf Buchbeschreibungen anwenden
PyBooks hat mehrere Buchbeschreibungen gesammelt und möchte mit der TF-IDF-Codierungstechnik wichtige Wörter darin identifizieren. So erhoffen sie sich bessere Einblicke in die einzigartigen Merkmale jedes Buchs, um ihr Buchempfehlungssystem zu verbessern.
Die folgenden Pakete wurden bereits für dich importiert: torch, torchtext.
Diese Übung ist Teil des Kurses
Deep Learning für Text mit PyTorch
Anleitung zur Übung
- Importiere die Klasse
TfidfVectorizeraussklearn.feature_extraction.text, die eine Sammlung roher Dokumente in eine Matrix aus TF-IDF-Features umwandelt. - Erzeuge eine Instanz dieser Klasse und verwende sie dann, um die
descriptionsin eine TF-IDF-Matrix von Vektoren zu kodieren. - Rufe die ersten fünf Feature-Namen vom
vectorizersowie die kodierten Vektoren austfidf_encoded_descriptionsab und gib sie aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Importing TF-IDF from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TF-IDF encoding vectorizer
vectorizer = ____()
tfidf_encoded_descriptions = vectorizer.____(descriptions)
# Extract and print the first five features
print(____.get_feature_names_out()[:5])
print(____.toarray()[0, :5])