Metody GroupBy a Filter

Teď, když o datové sadě víme o něco víc, podívejme se na souhrnné metriky datové sady ratings – zjistíme, kolik hodnocení mají jednotlivé filmy a kolik hodnocení poskytl každý uživatel.

Dvě užitečné metody pro agregaci souhrnných statistik ve Sparku jsou .filter() a .groupBy(). Metoda .filter() ti umožňuje odfiltrovat data, která nesplňují zadaná kritéria.

Toto cvičení je součástí kurzu

Tvorba doporučovacích systémů s PySparkem

Zobrazit kurz

Pokyny k cvičení

Importuj col z pyspark.sql.functions a zobraz datovou sadu ratings pomocí .show().
Aplikuj metodu .filter() na datovou sadu ratings s následujícím filtrem uvnitř závorek, aby výsledek obsahoval pouze userId menší než 100: col("userId") < 100.
Zavolej metodu .groupBy() na datové sadě ratings pro seskupení dat podle userId. Následně zavolej metodu .count(), abys zjistil/a, kolik filmů každý userId ohodnotil.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Import the requisite packages
from pyspark.sql.____ import ____

# View the ratings dataset
____.____()

# Filter to show only userIds less than 100
ratings.____(col("____") < ____).____()

# Group data by userId, count ratings
ratings.____("____").count().show()

Upravit a spustit kód