1. Nauka
  2. /
  3. Kursy
  4. /
  5. Budowanie silników rekomendacji w PySpark

Connected

ćwiczenie

Typy danych z ocenami

Markus ogląda mnóstwo filmów – dokumenty, filmy superbohaterskie, klasyki i dramaty. Korzystając z dotychczasowej wiedzy o Sparku, przeanalizuj ramkę danych markus_ratings, która zawiera informacje o tym, ile razy Markus obejrzał filmy z różnych gatunków. Zastanów się, czy mamy tu do czynienia z ocenami jawnymi czy niejawnymi. Użyj metody groupBy(), aby sprawdzić, który gatunek ma najwyższą łączną liczbę obejrzeń – to może mieć istotny wpływ na to, jakie rekomendacje wygeneruje algorytm ALS dla Markusa.

Instrukcje

100 XP
  • Użyj metody groupBy(), aby pogrupować ramkę danych markus_ratings według kolumny "Genre".
  • Zastosuj metodę .sum(), aby obliczyć łączną liczbę obejrzanych filmów dla każdego gatunku.
  • Pamiętaj, aby na końcu dodać metodę .show() i wyświetlić wyniki.