1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Tvorba doporučovacích systémů s PySparkem

Connected

Cvičení

Metody GroupBy a Filter

Teď, když o datové sadě víme o něco víc, podívejme se na souhrnné metriky datové sady ratings – zjistíme, kolik hodnocení mají jednotlivé filmy a kolik hodnocení poskytl každý uživatel.

Dvě užitečné metody pro agregaci souhrnných statistik ve Sparku jsou .filter() a .groupBy(). Metoda .filter() ti umožňuje odfiltrovat data, která nesplňují zadaná kritéria.

Pokyny

100 XP
  • Importuj col z pyspark.sql.functions a zobraz datovou sadu ratings pomocí .show().
  • Aplikuj metodu .filter() na datovou sadu ratings s následujícím filtrem uvnitř závorek, aby výsledek obsahoval pouze userId menší než 100: col("userId") < 100.
  • Zavolej metodu .groupBy() na datové sadě ratings pro seskupení dat podle userId. Následně zavolej metodu .count(), abys zjistil/a, kolik filmů každý userId ohodnotil.