1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Tvorba doporučovacích systémů s PySparkem

Connected

Cvičení

Přiřazení celočíselných ID filmům

Udělejme totéž pro filmy. Pak spojíme nová uživatelská ID a ID filmů do jednoho dataframu.

Pokyny

100 XP
  • Pomocí metod .select() a .distinct() vyextrahuj všechny unikátní hodnoty Movie z dataframu ratings.
  • Přerozděl dataframe movies na jeden oddíl pomocí coalesce().
  • Doplň připravený kód tak, aby každému filmu přiřadil unikátní celočíselné ID. Nový sloupec pojmenuj movieId a na výsledný dataframe zavolej metodu .persist().
  • Spoj dataframe ratings s dataframem users a následně s dataframem movies. Výsledek pojmenuj movie_ratings.