1. Обучение
  2. /
  3. Курса
  4. /
  5. Budowanie silników rekomendacji w PySpark

Connected

упражнение

Dodawanie zer

Wiele silników rekomendacji korzysta z ocen niejawnych. W takich zbiorach danych często brakuje liczby interakcji dla produktów, których użytkownik nigdy nie kupił. W takich przypadkach trzeba je dodać i uzupełnić zerami. Do dyspozycji masz ramkę danych Z, która zawiera kolumny userId, productId oraz num_purchases – czyli liczbę zakupów danego produktu przez użytkownika.

Инструкции

100 XP
  • Wyświetl ramkę danych Z za pomocą metody .show().
  • Wyodrębnij unikalne wartości userId i productId z Z za pomocą metody .distinct(). Wyniki zapisz odpowiednio jako users i products.
  • Wykonaj .crossJoin() na ramkach danych users i products. Wynik zapisz jako cj.
  • Złącz cj z oryginalną ramką danych z ocenami Z za pomocą złączenia "left" po kolumnach ["userId", "productId"]. Na wyniku wywołaj metodę .fillna(0), aby uzupełnić brakujące wartości zerami. Wynik zapisz jako Z_expanded.