Grupowe statystyki opisowe

W tym ćwiczeniu połączysz metody .groupBy() i .filter(), których wcześniej używasz, aby obliczyć min() i avg() liczby użytkowników, którzy ocenili każdą piosenkę, oraz min() i avg() liczby piosenek ocenionych przez każdego użytkownika.

Ponieważ nasze dane zawierają teraz wartości 0 dla elementów, które nie zostały jeszcze skonsumowane, trzeba je odfiltrować metodą .filter() przed wykonaniem grupowych statystyk opisowych. Zbiór danych msd jest już dla ciebie dostępny. Funkcje col(), min() i avg() z pyspark.sql.functions zostały zaimportowane.

Jako przykład: metody .filter(), .groupBy() i .count() są zastosowane do zbioru danych msd wraz z .select() i min(), aby zwrócić najmniejszą liczbę ocen, jaką otrzymała jakakolwiek piosenka w zbiorze danych. Użyj tego jako wzorca i oblicz avg() liczbę niejawnych ocen piosenek w zbiorze msd.
Korzystając z tego samego wzorca, wyznacz min() i avg() liczbę niejawnych ocen wystawionych przez userId w zbiorze danych msd.

ćwiczenie

Grupowe statystyki opisowe

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie