1. Nauka
  2. /
  3. Kursy
  4. /
  5. Budowanie silników rekomendacji w PySpark

Connected

ćwiczenie

Tworzenie podziałów na zbiór testowy i treningowy oraz budowanie modelu ALS

Wiesz już, jak zbudować model ALS – zrobiłeś to w poprzednim rozdziale. Teraz zrobimy to ponownie, ale tym razem wykonamy kilka dodatkowych kroków, aby w pełni zbudować model z walidacją krzyżową.

Na początek zaimportujmy niezbędne funkcje i przygotujmy zbiory treningowy oraz testowy przed krokiem walidacji krzyżowej.

Instrukcje

100 XP
  • Zaimportuj RegressionEvaluator z ml.evaluation, algorytm ALS z ml.recommendation, a także ParamGridBuilder i CrossValidator z ml.tuning.
  • Podziel dane ratings na zbiór treningowy i testowy w proporcji 80/20, używając metody randomSplit. Nazwij zbiory train i test, a ziarno losowości ustaw na 1234.
  • Zbuduj model ALS, podając Sparkowi nazwy kolumn z ramki danych ratings, które odpowiadają parametrom userCol, itemCol i ratingCol. Ustaw argument nonnegative na True, coldStartStrategy na "drop", a argument implicitPrefs na False, aby wskazać, że nie korzystasz z preferencji niejawnych. Nazwij ten model als.
  • Sprawdź, czy model został poprawnie utworzony, wywołując funkcję type() na obiekcie als. Wynik powinien wskazywać typ modelu.