1. Nauka
  2. /
  3. Kursy
  4. /
  5. Budowanie silników rekomendacji w PySpark

Connected

ćwiczenie

Metody GroupBy i Filter

Teraz, gdy wiemy już nieco więcej o zbiorze danych, przyjrzyjmy się ogólnym statystykom podsumowującym zbioru ratings i sprawdźmy, ile ocen mają poszczególne filmy oraz ile ocen wystawił każdy użytkownik.

Dwie metody, które przydadzą ci się podczas agregowania statystyk w Sparku, to .filter() i .groupBy(). Metoda .filter() pozwala odfiltrować dane, które nie spełniają określonych kryteriów.

Instrukcje

100 XP
  • Zaimportuj col z biblioteki pyspark.sql.functions i wyświetl zbiór danych ratings za pomocą .show().
  • Zastosuj metodę .filter() na zbiorze danych ratings, podając w nawiasie poniższy warunek, aby uwzględnić tylko userId mniejsze niż 100: col("userId") < 100.
  • Wywołaj metodę .groupBy() na zbiorze danych ratings, aby pogrupować dane według userId. Następnie wywołaj metodę .count(), aby sprawdzić, ile filmów ocenił każdy userId.