1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Tvorba doporučovacích systémů s PySparkem

Connected

Cvičení

Výpočet řídkosti

Jak už víš, ALS funguje dobře s řídkými datovými sadami. Podívejme se, kolik z matice ratings je ve skutečnosti prázdných.

Připomeňme, že řídkost se počítá jako podíl počtu buněk v matici, které obsahují hodnocení, a celkového počtu hodnot, které by matice mohla mít při daném počtu uživatelů a položek (filmů). Jinak řečeno: vydělíme počet přítomných hodnocení součinem počtu uživatelů a filmů v matici a výsledek odečteme od 1 — tím získáme řídkost, tedy procentuální podíl prázdných buněk v matici ratings.

Pokyny

100 XP
  • Vypočítej numerator (čitatel) metriky řídkosti tak, že spočítáš celkový počet hodnocení obsažených v matici ratings.
  • Vypočítej počet distinct() userIds a distinct() movieIds v matici ratings.
  • Vypočítej denominator (jmenovatel) metriky řídkosti vynásobením počtu uživatelů počtem filmů v matici ratings.
  • Vypočítej a vypiš řídkost tak, že vydělíš numerator hodnotou denominator, výsledek odečteš od 1 a vynásobíš 100. Hodnota 1.0 je přidána proto, aby byl výsledek vrácen jako desetinné číslo, a ne jako celé číslo.