1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Introduction to Data Engineering

Connected

cvičení

Spojení s hodnoceními

Ve videoukázce jsi viděl/a, jak v PySparku používat transformace – konkrétně spojení tabulek film a ratings pro vytvoření nového sloupce s průměrným hodnocením na zákazníka. V tomto cvičení využiješ stejné techniky z videoukázky k tomu, aby ses dostal/a ještě dál: vypočítáš průměrné hodnocení pro každý film z tabulek film a ratings.

V pracovním prostoru máš k dispozici PySpark DataFrame s filmy film_df a PySpark DataFrame s hodnoceními rating_df.

Pokyny

100 XP
  • Vypočítej průměrné hodnocení pro každé film_id a výsledek ulož do ratings_per_film_df.
  • Doplň příkaz .join() tak, aby spojení probíhalo přes sloupec film_id.
  • Zobraz prvních 5 výsledků vzniklého DataFrame.