1. Nauka
  2. /
  3. Kursy
  4. /
  5. Budowanie silników rekomendacji w PySpark

Connected

ćwiczenie

Uruchamianie modelu ALS z niejawnymi ocenami i walidacją krzyżową

Mamy już kilka modeli ALS, każdy z innym zestawem wartości hiperparametrów. Możemy trenować je na zbiorze treningowym ze zbioru danych msd z wykorzystaniem walidacji krzyżowej, a następnie ocenić ich działanie na zbiorze testowym za pomocą omawianej wcześniej funkcji ROEM. Niestety, w ramach tego ćwiczenia zajęłoby to zbyt dużo czasu – dlatego ten krok został już wykonany osobno. Dla orientacji: poniżej znajdziesz pętlę, której możesz użyć do ewaluacji swojej listy model_list (na zbiorze danych msd):

# Split the data into training and test sets
(training, test) = msd.randomSplit([0.8, 0.2])

#Building 5 folds within the training set.
train1, train2, train3, train4, train5 = training.randomSplit([0.2, 0.2, 0.2, 0.2, 0.2], seed = 1)
fold1 = train2.union(train3).union(train4).union(train5)
fold2 = train3.union(train4).union(train5).union(train1)
fold3 = train4.union(train5).union(train1).union(train2)
fold4 = train5.union(train1).union(train2).union(train3)
fold5 = train1.union(train2).union(train3).union(train4)

foldlist = [(fold1, train1), (fold2, train2), (fold3, train3), (fold4, train4), (fold5, train5)]

# Empty list to fill with ROEMs from each model
ROEMS = []

# Loops through all models and all folds
for model in model_list:
    for ft_pair in foldlist:

        # Fits model to fold within training data
        fitted_model = model.fit(ft_pair[0])

        # Generates predictions using fitted_model on respective CV test data
        predictions = fitted_model.transform(ft_pair[1])

        # Generates and prints a ROEM metric CV test data
        r = ROEM(predictions)
        print ("ROEM: ", r)

    # Fits model to all of training data and generates preds for test data
    v_fitted_model = model.fit(training)
    v_predictions = v_fitted_model.transform(test)
    v_ROEM = ROEM(v_predictions)

    # Adds validation ROEM to ROEM list
    ROEMS.append(v_ROEM)
    print ("Validation ROEM: ", v_ROEM)

Aby przeprowadzić cię przez kolejne kroki, predykcje testowe dla 192 modeli zostały już wygenerowane, a ich wartości ROEM obliczone. Znajdziesz je na liście ROEMS. Ponieważ lista to struktura niezwiązana wyłącznie z PySparkiem, a numpy świetnie sobie z nią radzi, w tym ćwiczeniu skorzystamy właśnie z tej biblioteki. Wykonaj poniższe instrukcje, aby znaleźć najlepszy wynik ROEM i model, który go osiągnął.

Instrukcje

100 XP
  • Zaimportuj numpy.
  • Wyodrębnij najmniejszą wartość ROEM z listy ROEMS za pomocą numpy.argmin(). Metoda .argmin() zwraca indeks najniższej wartości na liście. Wynik zapisz jako i i wydrukuj i.
  • Użyj indeksowania listy, aby znaleźć wartość na liście ROEMS pod indeksem i.