1. Nauka
  2. /
  3. Kursy
  4. /
  5. Budowanie silników rekomendacji w PySpark

Connected

ćwiczenie

Grupowe statystyki opisowe

W tym ćwiczeniu połączysz metody .groupBy() i .filter(), których wcześniej używasz, aby obliczyć min() i avg() liczby użytkowników, którzy ocenili każdą piosenkę, oraz min() i avg() liczby piosenek ocenionych przez każdego użytkownika.

Ponieważ nasze dane zawierają teraz wartości 0 dla elementów, które nie zostały jeszcze skonsumowane, trzeba je odfiltrować metodą .filter() przed wykonaniem grupowych statystyk opisowych. Zbiór danych msd jest już dla ciebie dostępny. Funkcje col(), min() i avg() z pyspark.sql.functions zostały zaimportowane.

Instrukcje

100 XP
  • Jako przykład: metody .filter(), .groupBy() i .count() są zastosowane do zbioru danych msd wraz z .select() i min(), aby zwrócić najmniejszą liczbę ocen, jaką otrzymała jakakolwiek piosenka w zbiorze danych. Użyj tego jako wzorca i oblicz avg() liczbę niejawnych ocen piosenek w zbiorze msd.
  • Korzystając z tego samego wzorca, wyznacz min() i avg() liczbę niejawnych ocen wystawionych przez userId w zbiorze danych msd.