Informationsverlust bei der Faktorisierung
Du fragst dich vielleicht, wie Faktoren mit deutlich weniger Spalten einen größeren DataFrame ohne Verlust zusammenfassen können. Tatsächlich geht das nicht — die von uns erzeugten Faktoren sind in der Regel nur eine gute Annäherung an die Daten, denn ein gewisser Informationsverlust ist unvermeidlich. Das bedeutet, dass vorhergesagte Werte nicht exakt sein müssen, aber nahe genug liegen sollten, um nützlich zu sein.
In dieser Übung schaust du dir denselben ursprünglichen, vor der Faktorisierung vorliegenden DataFrame aus der letzten Aufgabe an, der als original_df geladen wurde, und vergleichst ihn mit dem Produkt seiner beiden Faktoren, user_matrix und item_matrix.
Diese Übung ist Teil des Kurses
Recommendation Engines mit Python entwickeln
Anleitung zur Übung
- Ermittle das Skalarprodukt von
user_matrixunditem_matrixund speichere es alspredictions_df.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
import numpy as np
# Multiply the user and item matrices
predictions_df = ____.____(____, ____)
# Inspect the recreated DataFrame
print(predictions_df)
# Inspect the original DataFrame and compare
print(original_df)