1. Learn
  2. /
  3. Courses
  4. /
  5. Tvorba doporučovacích systémů s PySparkem

Connected

Exercise

Doplnění nul

Mnoho doporučovacích systémů pracuje s implicitními hodnoceními. V takových datasetech často chybí záznamy o chování uživatelů u produktů, které nikdy nezakoupili. V těchto případech je potřeba chybějící záznamy doplnit a nahradit nulami. K dispozici máš dataframe Z, který obsahuje sloupce userId, productId a num_purchases – tedy počet nákupů daného produktu konkrétním uživatelem.

Instructions

100 XP
  • Prohlédni si dataframe Z pomocí metody .show().
  • Z dataframu Z vyextrahuj unikátní hodnoty userId a productId pomocí metody .distinct(). Výsledky pojmenuj users a products.
  • Proveď .crossJoin() nad dataframy users a products. Výsledek pojmenuj cj.
  • Připoj cj k původnímu dataframu s hodnoceními Z pomocí "left" joinu na sloupcích ["userId", "productId"]. Na výsledek zavolej metodu .fillna(0), aby se prázdná místa doplnila nulami. Výsledek pojmenuj Z_expanded.