1. Nauka
  2. /
  3. Kursy
  4. /
  5. Budowanie silników rekomendacji w PySpark

Connected

ćwiczenie

Poprawny format i unikalni użytkownicy

Przyjrzyj się ramce danych R. Zauważ, że jest w konwencjonalnym, „szerokim" formacie – każdy film zajmuje osobną kolumnę. Zwróć też uwagę, że nazwy użytkowników (User) i filmów nie są w formacie całkowitoliczbowym. Wykonaj kolejne kroki, aby poprawnie przygotować te dane do użycia z algorytmem ALS.

Instrukcje

100 XP
  • Zaimportuj pakiet monotonically_increasing_id z pyspark.sql.functions i wyświetl ramkę danych R za pomocą metody .show().
  • Użyj funkcji to_long(), aby przekonwertować ramkę danych R do formatu „długiego". Nową ramkę danych nazwij ratings.
  • Utwórz ramkę danych o nazwie users, która będzie zawierać wszystkich unikalnych użytkowników (.distinct()) z ramki danych, a następnie podziel ją na jedną partycję za pomocą metody .coalesce(1).
  • Użyj metody monotonically_increasing_id() wewnątrz withColumn(), aby dodać do ramki danych users nową kolumnę z unikalną liczbą całkowitą dla każdego użytkownika. Nazwij tę kolumnę userId. Pamiętaj, aby wywołać metodę .persist() na końcowej ramce danych – dzięki temu nowe identyfikatory całkowite zostaną zachowane.