LoslegenKostenlos loslegen

TF-IDF von Filmhandlungen

Lass uns die Handlungen zufällig ausgewählter Filme für das Clustering von Dokumenten verwenden. Bevor du Dokumente clustern kannst, müssen sie von unerwünschtem Rauschen (z. B. Sonderzeichen und Stoppwörtern) bereinigt und über TF-IDF der Dokumente in eine Sparse-Matrix umgewandelt werden.

Verwende die Klasse TfidfVectorizer, um das TF-IDF der in der Liste plots gespeicherten Filmhandlungen zu berechnen. Die Funktion remove_noise() steht als tokenizer in der Klasse TfidfVectorizer zur Verfügung. Die Methode .fit_transform() passt die Daten an die TfidfVectorizer-Objekte an und erzeugt anschließend die TF-IDF-Sparse-Matrix.

Hinweis: Das Ausführen der Methode .fit_transform() dauert ein paar Sekunden.

Diese Übung ist Teil des Kurses

Cluster Analysis in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Klasse TfidfVectorizer aus sklearn.
  • Initialisiere die Klasse TfidfVectorizer mit minimalen und maximalen Frequenzen von 0.1 und 0.75 sowie 50 maximalen Features.
  • Verwende die Methode fit_transform() auf der initialisierten Klasse TfidfVectorizer mit der Liste plots.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____
Code bearbeiten und ausführen