1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Tvorba doporučovacích systémů s PySparkem

Connected

Cvičení

Souhrnné statistiky MovieLens

Pojďme metodu groupBy() využít trochu víc.

Poté, co metodu .groupBy() na dataframe použiješ, můžeš nad výsledkem spouštět agregační funkce jako .sum(), .avg() nebo .min() – a výsledky budou seskupeny podle zvolené skupiny. Toto cvičení tě provede tím, jak to funguje. Funkce min a avg jsou za tebe již naimportovány z pyspark.sql.functions.

Pokyny

100 XP
  • Seskup data podle movieId a pomocí metody .count() zjisti, kolik hodnocení každý film obdržel. Poté zavolej metodu .select() a vyber následující metriky:
    • min("count") pro zjištění nejmenšího počtu hodnocení u jakéhokoli filmu v datasetu. Tento první příklad je již připraven za tebe.
    • avg("count") pro zjištění průměrného počtu hodnocení na film
  • Udělej totéž, ale tentokrát seskup data podle userId, abys získal/a hodnoty min a avg počtu hodnocení.