1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Tvorba doporučovacích systémů s PySparkem

Connected

Cvičení

Skupinová souhrnná statistika

V tomto cvičení zkombinuješ metody .groupBy() a .filter(), které už znáš, a vypočítáš pomocí min() a avg() minimální a průměrný počet uživatelů, kteří ohodnotili každou skladbu, a minimální a průměrný počet skladeb, které každý uživatel ohodnotil.

Protože naše data teď obsahují nuly pro položky, které ještě nebyly konzumovány, je potřeba je při skupinové souhrnné statistice odfiltrovat pomocí .filter(). Dataset msd máš k dispozici. Funkce col(), min() a avg() z pyspark.sql.functions jsou již naimportované.

Pokyny

100 XP
  • Jako vzor ti poslouží příklad, ve kterém jsou na dataset msd aplikovány metody .filter(), .groupBy() a .count() spolu s .select() a min(), které vrátí nejmenší počet hodnocení, jež v datasetu získala jakákoli skladba. Podle tohoto vzoru vypočítej průměrný (avg()) počet implicitních hodnocení skladeb v datasetu msd.
  • Podle stejného vzoru zjisti minimální (min()) a průměrný (avg()) počet implicitních hodnocení, která v datasetu msd poskytla jednotlivá userId.