1. Nauka
  2. /
  3. Kursy
  4. /
  5. Budowanie silników rekomendacji w PySpark

Connected

ćwiczenie

Statystyki podsumowujące zbioru MovieLens

Poznajmy metodę groupBy() nieco bliżej.

Po zastosowaniu metody .groupBy() do ramki danych możesz na niej wykonywać funkcje agregujące, takie jak .sum(), .avg(), .min(), a wyniki będą pogrupowane. To ćwiczenie pokaże ci, jak to działa. Funkcje min i avg zostały już zaimportowane z pyspark.sql.functions.

Instrukcje

100 XP
  • Zgrupuj dane według movieId i użyj metody .count(), aby obliczyć, ile ocen otrzymał każdy film. Następnie wywołaj metodę .select(), by wybrać następujące metryki:
    • min("count") – aby uzyskać najmniejszą liczbę ocen, jaką otrzymał jakikolwiek film w zbiorze danych. Ten krok jest już podany jako przykład.
    • avg("count") – aby uzyskać średnią liczbę ocen na film
  • Zrób to samo, ale tym razem grupuj według userId, aby uzyskać wartości min i avg liczby ocen.