Das TF-IDF-Modell instanziieren

TF-IDF erzeugt standardmäßig eine Spalte für jedes Wort in allen deinen Dokumenten (in unserem Fall Filmzusammenfassungen). Das führt zu einem riesigen und wenig intuitiven Datensatz, weil er sowohl sehr häufige Wörter enthält, die in jedem Dokument vorkommen, als auch sehr seltene Wörter, die keinen Mehrwert für das Finden von Ähnlichkeiten zwischen Items liefern.

In dieser Übung arbeitest du mit dem DataFrame df_plots. Er enthält die Filmtitel in der Spalte Title und deren Handlungen in der Spalte Plot.

Mit diesem DataFrame erzeugst du zunächst die standardmäßigen TF-IDF-Scores und prüfst, ob wenig hilfreiche Spalten vorhanden sind.

Anschließend führst du die TF-IDF-Berechnungen erneut aus und begrenzt diesmal die Anzahl der Spalten mit den Argumenten min_df und max_df, um hoffentlich eine Verbesserung zu sehen.

Diese Übung ist Teil des Kurses

<Kurs>Recommendation Engines mit Python entwickeln</Kurs>

Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object to the vectorizer variable
vectorizer = ____()

# Fit and transform the plot column
vectorized_data = vectorizer.____(df_plots['Plot'])

# Look at the features generated
print(____.____())

Code bearbeiten und ausführen