1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Porównanie wydajności modeli

Wizualizacja danych daje dobre wyczucie tego, gdzie model radzi sobie dobrze, a gdzie nie. Czasem jednak warto mieć jedną liczbę, która ocenia model jako całość. Dzięki temu możesz zmierzyć jakość modelu i porównywać wiele modeli między sobą. Popularną miarą jest pierwiastek błędu średniokwadratowego (ang. root mean square error, w skrócie RMSE) – oblicza się go, podnosząc reszty do kwadratu, wyciągając średnią, a następnie pierwiastek. Im mniejsza wartość RMSE dla danego zbioru danych, tym lepsze przewidywania modelu. (Domyślnie RMSE pozwala porównywać różne modele na tym samym zbiorze danych, a nie modele trenowane na różnych zbiorach. W niektórych przypadkach można znormalizować zbiory danych, aby umożliwić takie porównanie.)

W tym ćwiczeniu porównasz modele gradient boosted trees i las losowy (random forest).

Instrukcje

100 XP

Zbiór both_responses, zawierający przewidywany i rzeczywisty rok wydania utworu dla obu modeli, został wcześniej zdefiniowany jako lokalna tibble.

  • Utwórz zbiór danych z sumą kwadratów reszt.
    • Dodaj kolumnę residual równą przewidywanej odpowiedzi minus odpowiedź rzeczywista.
    • Pogrupuj dane według zmiennej model.
    • Oblicz statystykę podsumowującą rmse, równą pierwiastkowi kwadratowemu ze średniej kwadratów wartości residual.