1. Learn
  2. /
  3. Courses
  4. /
  5. Podstawy Big Data z PySpark

Connected

Exercise

Trenowanie modelu i przewidywanie wyników

Po podzieleniu danych na zbiór treningowy i testowy w drugiej części ćwiczenia wytrenuj algorytm ALS na danych treningowych. Algorytm ALS w PySpark MLlib wymaga dwóch obowiązkowych parametrów: rank (liczba ukrytych czynników w modelu) oraz iterations (liczba iteracji). Po wytrenowaniu modelu ALS możesz go użyć do przewidywania ocen na podstawie danych testowych. W tym celu podaj kolumny użytkownika i elementu ze zbioru testowego, a następnie zwróć listę 2 wierszy z wynikiem predictAll().

Pamiętaj: SparkContext sc, training_data oraz test_data są już dostępne w twoim środowisku pracy.

Instructions

100 XP
  • Wytrenuj algorytm ALS na danych treningowych z użyciem skonfigurowanych parametrów (rank = 10 i iterations = 10).
  • Usuń kolumnę rating z danych testowych – jest to trzecia kolumna.
  • Przetestuj model, przewidując oceny na podstawie danych testowych.
  • Zwróć listę dwóch wierszy z przewidywanymi ocenami.