LoslegenKostenlos loslegen

Das TF-IDF-Modell instanziieren

TF-IDF erzeugt standardmäßig eine Spalte für jedes Wort in allen deinen Dokumenten (in unserem Fall Filmzusammenfassungen). Das führt zu einem riesigen und wenig intuitiven Datensatz, weil er sowohl sehr häufige Wörter enthält, die in jedem Dokument vorkommen, als auch sehr seltene Wörter, die keinen Mehrwert für das Finden von Ähnlichkeiten zwischen Items liefern.

In dieser Übung arbeitest du mit dem DataFrame df_plots. Er enthält die Filmtitel in der Spalte Title und deren Handlungen in der Spalte Plot.

Mit diesem DataFrame erzeugst du zunächst die standardmäßigen TF-IDF-Scores und prüfst, ob wenig hilfreiche Spalten vorhanden sind.

Anschließend führst du die TF-IDF-Berechnungen erneut aus und begrenzt diesmal die Anzahl der Spalten mit den Argumenten min_df und max_df, um hoffentlich eine Verbesserung zu sehen.

Diese Übung ist Teil des Kurses

Recommendation Engines mit Python entwickeln

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object to the vectorizer variable
vectorizer = ____()

# Fit and transform the plot column
vectorized_data = vectorizer.____(df_plots['Plot'])

# Look at the features generated
print(____.____())
Code bearbeiten und ausführen