LoslegenKostenlos loslegen

Erstellen des TF-IDF-DataFrames

Jetzt, da du unsere TF-IDF-Merkmale erzeugt hast, musst du sie in ein Format bringen, das du für Empfehlungen verwenden kannst. Dafür nutzt du erneut pandas und verpackst das Array in einen DataFrame. Da du die Filmtitel zum Filtern der Daten verwenden wirst, kannst du die Titel dem Index des DataFrames zuweisen.

Der DataFrame df_plots wurde wieder für dich geladen. Er enthält die Filmtitel in der Spalte Title und ihre Handlungsbeschreibungen in der Spalte Plot.

Diese Übung ist Teil des Kurses

Recommendation Engines mit Python entwickeln

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen TfidfVectorizer und führe Fit und Transform wie in der vorherigen Übung aus.
  • Verpacke die erzeugten vectorized_data in einen DataFrame. Verwende die während des Fit-und-Transform-Schritts generierten Merkmalnamen als Spaltennamen und weise deinen neuen DataFrame tfidf_df zu.
  • Weise die ursprünglichen Filmtitel dem Index des neu erstellten DataFrames tfidf_df zu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot']) 

# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())

# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())
Code bearbeiten und ausführen