1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Tvorba doporučovacích systémů s PySparkem

Connected

Cvičení

Správný formát a unikátní uživatelé

Prohlédni si dataframe R. Všimni si, že je v klasickém neboli „širokém" formátu – každý sloupec představuje jiný film. Také si všimni, že jména Userů a filmů nejsou v celočíselném formátu. Postupuj podle kroků níže a správně připrav tato data pro ALS.

Pokyny

100 XP
  • Importuj balíček monotonically_increasing_id z pyspark.sql.functions a zobraz dataframe R pomocí metody .show().
  • Pomocí funkce to_long() převeď dataframe R do „dlouhého" formátu. Nový dataframe pojmenuj ratings.
  • Vytvoř dataframe users, který bude obsahovat všechny unikátní uživatele pomocí .distinct(), a přerozděl ho do jednoho oddílu metodou .coalesce(1).
  • Pomocí metody monotonically_increasing_id() uvnitř withColumn() přidej do dataframu users nový sloupec s unikátním celým číslem pro každého uživatele. Pojmenuj tento sloupec userId. Nezapomeň na závěr zavolat metodu .persist(), aby nová celočíselná ID zůstala zachována.