Informatieverlies bij factorizatie
Je vraagt je misschien af hoe factoren met veel minder kolommen een grotere DataFrame zonder verlies kunnen samenvatten. In feite is dat niet zo — de factoren die we maken zijn meestal een goede benadering van de gegevens, omdat het onvermijdelijk is dat er wat informatie verloren gaat. Dit betekent dat voorspelde waarden niet exact zijn, maar wel dicht genoeg in de buurt komen om nuttig te zijn.
In deze oefening bekijk je dezelfde oorspronkelijke DataFrame van vóór de factorizatie uit de vorige oefening, geladen als original_df, en vergelijk je deze met het product van de twee factoren, user_matrix en item_matrix.
Deze oefening maakt deel uit van de cursus
Aanbevelingssystemen bouwen in Python
Oefeninstructies
- Bepaal het dotproduct van
user_matrixenitem_matrixen sla dit op alspredictions_df.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
import numpy as np
# Multiply the user and item matrices
predictions_df = ____.____(____, ____)
# Inspect the recreated DataFrame
print(predictions_df)
# Inspect the original DataFrame and compare
print(original_df)