1. Nauka
  2. /
  3. Kursy
  4. /
  5. Budowanie silników rekomendacji w PySpark

Connected

ćwiczenie

Oblicz rzadkość macierzy

Jak wiesz, ALS dobrze sprawdza się w przypadku rzadkich zbiorów danych. Sprawdźmy, jak duża część macierzy ratings jest w rzeczywistości pusta.

Pamiętaj, że rzadkość oblicza się jako stosunek liczby komórek macierzy zawierających ocenę do łącznej liczby wartości, które ta macierz mogłaby przechowywać, biorąc pod uwagę liczbę użytkowników i filmów. Innymi słowy, aby uzyskać rzadkość – czyli odsetek pustych komórek macierzy ratings – podziel liczbę ocen przez iloczyn liczby użytkowników i filmów, a następnie odejmij wynik od 1.

Instrukcje

100 XP
  • Oblicz numerator (licznik) miary rzadkości, zliczając łączną liczbę ocen zawartych w macierzy ratings.
  • Oblicz liczbę distinct() wartości userIds i distinct() wartości movieIds w macierzy ratings.
  • Oblicz denominator (mianownik) miary rzadkości, mnożąc liczbę użytkowników przez liczbę filmów w macierzy ratings.
  • Oblicz i wyświetl rzadkość, dzieląc numerator przez denominator, odejmując wynik od 1 i mnożąc przez 100. Wartość 1.0 jest dodana, aby wynik był zwrócony jako liczba dziesiętna, a nie całkowita.