Erstellen des TF-IDF-DataFrames
Jetzt, da du unsere TF-IDF-Merkmale erzeugt hast, musst du sie in ein Format bringen, das du für Empfehlungen verwenden kannst.
Dafür nutzt du erneut pandas und verpackst das Array in einen DataFrame.
Da du die Filmtitel zum Filtern der Daten verwenden wirst, kannst du die Titel dem Index des DataFrames zuweisen.
Der DataFrame df_plots wurde wieder für dich geladen. Er enthält die Filmtitel in der Spalte Title und ihre Handlungsbeschreibungen in der Spalte Plot.
Diese Übung ist Teil des Kurses
Recommendation Engines mit Python entwickeln
Anleitung zur Übung
- Erstelle einen
TfidfVectorizerund führe Fit und Transform wie in der vorherigen Übung aus. - Verpacke die erzeugten
vectorized_datain einen DataFrame. Verwende die während des Fit-und-Transform-Schritts generierten Merkmalnamen als Spaltennamen und weise deinen neuen DataFrametfidf_dfzu. - Weise die ursprünglichen Filmtitel dem Index des neu erstellten DataFrames
tfidf_dfzu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from sklearn.feature_extraction.text import TfidfVectorizer
# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot'])
# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())
# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())