Alle deine Filme mit TF-IDF vergleichen

Jetzt, da du dir die Mühe gemacht hast, deine TF-IDF-Daten in ein nutzbares Format zu bringen, ist es Zeit, sie einzusetzen, um Ähnlichkeiten zu finden und Empfehlungen zu erzeugen.

Da du diesmal TF-IDF-Scores verwendest (die Floats sind statt Booleans), nutzt du die Kosinus-Ähnlichkeit als Metrik, um die Ähnlichkeiten zwischen Items zu bestimmen. In dieser Übung erzeugst du eine Matrix aller Kosinus-Ähnlichkeiten zwischen den Filmen und speicherst sie in einem DataFrame, damit du sie leicht nachschlagen kannst. So kannst du Filme schnell und einfach vergleichen und Empfehlungen finden.

Der DataFrame tfidf_df, den du in der letzten Übung erstellt hast und der eine Zeile pro Film enthält, wurde für dich geladen.

Diese Übung ist Teil des Kurses

Recommendation Engines mit Python entwickeln

Kurs anzeigen

Anleitung zur Übung

Ermittle die Kosinus-Ähnlichkeiten zwischen allen Filmen und weise die Ergebnisse cosine_similarity_array zu.
Erstelle einen DataFrame aus dem cosine_similarity_array mit tfidf_summary_df.index als Zeilen und Spalten.
Gib die ersten fünf Zeilen des DataFrames aus und untersuche die Ähnlichkeitswerte.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import cosine_similarity measure
from sklearn.metrics.pairwise import ____

# Create the array of cosine similarity values
cosine_similarity_array = ____(tfidf_summary_df)

# Wrap the array in a pandas DataFrame
cosine_similarity_df = pd.____(cosine_similarity_array, ____=____.____, ____=____.____)

# Print the top 5 rows of the DataFrame
print(cosine_similarity_df.head())

Code bearbeiten und ausführen