1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Tvorba doporučovacích systémů s PySparkem

Connected

Cvičení

Souhrnné statistiky MSD

Pojďme se seznámit s podmnožinou dat Million Songs Echo Nest Taste Profile. V tomto kurzu ji budeme jednoduše nazývat dataset Million Songs nebo msd. Zjistíme počet uživatelů a počet skladeb a podíváme se, které skladby mají v této podmnožině nejvíce přehrání.

Pokyny

100 XP
  • Pomocí metody .show() se podívej, jak data vypadají.
  • Doplň kód pro počítání unikátních hodnot userId. Vyber sloupec userId a zavolej na něj .distinct() a .count().
  • Totéž teď udělej pro songId – tedy spočítej počet unikátních hodnot songId. Vyber sloupec songId a zavolej na něj .distinct() a .count().