1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Ewaluacja modelu przy użyciu MSE

Po wygenerowaniu przewidywanych ocen z danych testowych za pomocą modelu ALS, w tej ostatniej części ćwiczenia przygotujesz dane do obliczenia błędu średniokwadratowego (MSE) modelu. MSE to średnia wartość wyrażenia (original rating – predicted rating)**2 dla wszystkich użytkowników – informuje, jak dobrze model dopasowuje się do danych.

W tym celu najpierw zorganizujesz RDD ratings_final i predictions tak, aby tworzyły krotki ((user, product), rating). W obu RDD odwzorowanie wygląda następująco:

0: user
1: product
2: rating

Następnie połączysz przekształcone RDD, a na końcu zastosujesz funkcję obliczającą różnicę kwadratową wraz z mean(), aby uzyskać wartość MSE.

Pamiętaj, że w przestrzeni roboczej masz dostępny SparkContext sc. RDD ratings_final i predictions są już załadowane do przestrzeni roboczej.

Instrukcje

100 XP
  • Zorganizuj RDD ratings, aby uzyskać postać ((user, product), rating).
  • Zorganizuj RDD predictions, aby uzyskać postać ((user, product), rating).
  • Połącz RDD z przewidywaniami z RDD zawierającym oceny.
  • Oceń model, obliczając MSE między oryginalną a przewidywaną oceną, i wydrukuj wynik.