1. Nauka
  2. /
  3. Kursy
  4. /
  5. Budowanie silników rekomendacji w PySpark

Connected

ćwiczenie

Przypisywanie identyfikatorów całkowitoliczbowych do filmów

Zróbmy to samo dla filmów. Następnie połączymy nowe identyfikatory użytkowników i filmów w jeden DataFrame.

Instrukcje

100 XP
  • Użyj metod .select() i .distinct(), aby wyodrębnić wszystkie unikalne wartości Movie z DataFrame ratings.
  • Podziel DataFrame movies na jedną partycję za pomocą coalesce().
  • Uzupełnij podany częściowy kod, aby przypisać unikalne identyfikatory całkowitoliczbowe do każdego filmu. Nadaj nowej kolumnie nazwę movieId i wywołaj metodę .persist() na wynikowym DataFrame.
  • Połącz DataFrame ratings z DataFrame users, a następnie z DataFrame movies. Wynik nazwij movie_ratings.