LoslegenKostenlos starten

Alle deine Filme mit TF-IDF vergleichen

Jetzt, da du dir die Mühe gemacht hast, deine TF-IDF-Daten in ein nutzbares Format zu bringen, ist es Zeit, sie einzusetzen, um Ähnlichkeiten zu finden und Empfehlungen zu erzeugen.

Da du diesmal TF-IDF-Scores verwendest (die Floats sind statt Booleans), nutzt du die Kosinus-Ähnlichkeit als Metrik, um die Ähnlichkeiten zwischen Items zu bestimmen. In dieser Übung erzeugst du eine Matrix aller Kosinus-Ähnlichkeiten zwischen den Filmen und speicherst sie in einem DataFrame, damit du sie leicht nachschlagen kannst. So kannst du Filme schnell und einfach vergleichen und Empfehlungen finden.

Der DataFrame tfidf_df, den du in der letzten Übung erstellt hast und der eine Zeile pro Film enthält, wurde für dich geladen.

Diese Übung ist Teil des Kurses

<Kurs>Recommendation Engines mit Python entwickeln</Kurs>
Kurs ansehen

Übungsanweisungen

  • Ermittle die Kosinus-Ähnlichkeiten zwischen allen Filmen und weise die Ergebnisse cosine_similarity_array zu.
  • Erstelle einen DataFrame aus dem cosine_similarity_array mit tfidf_summary_df.index als Zeilen und Spalten.
  • Gib die ersten fünf Zeilen des DataFrames aus und untersuche die Ähnlichkeitswerte.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import cosine_similarity measure
from sklearn.metrics.pairwise import ____

# Create the array of cosine similarity values
cosine_similarity_array = ____(tfidf_summary_df)

# Wrap the array in a pandas DataFrame
cosine_similarity_df = pd.____(cosine_similarity_array, ____=____.____, ____=____.____)

# Print the top 5 rows of the DataFrame
print(cosine_similarity_df.head())
Code bearbeiten und ausführen