1. Nauka
  2. /
  3. Kursy
  4. /
  5. Budowanie silników rekomendacji w PySpark

Connected

ćwiczenie

Statystyki podsumowujące zbioru MSD

Zapoznaj się z podzbiorem danych Million Songs Echo Nest Taste Profile. Na potrzeby tego kursu będziemy go nazywać zbiorem Million Songs lub msd. Sprawdź, ilu jest użytkowników i ile jest piosenek. Zobaczmy też, które piosenki mają największą liczbę odtworzeń w tym podzbiorze.

Instrukcje

100 XP
  • Użyj metody .show(), aby zobaczyć, jak wyglądają dane.
  • Uzupełnij kod, aby zliczyć liczbę unikalnych wartości userId. Wybierz kolumnę userId, a następnie wywołaj .distinct() i .count().
  • Teraz zrób to samo dla songId – zlicz liczbę unikalnych wartości songId. Wybierz kolumnę songId i wywołaj na niej .distinct() i .count().