Porównanie wydajności modeli

Wizualizacja danych daje dobre wyczucie tego, gdzie model radzi sobie dobrze, a gdzie nie. Czasem jednak warto mieć jedną liczbę, która ocenia model jako całość. Dzięki temu możesz zmierzyć jakość modelu i porównywać wiele modeli między sobą. Popularną miarą jest pierwiastek błędu średniokwadratowego (ang. root mean square error, w skrócie RMSE) – oblicza się go, podnosząc reszty do kwadratu, wyciągając średnią, a następnie pierwiastek. Im mniejsza wartość RMSE dla danego zbioru danych, tym lepsze przewidywania modelu. (Domyślnie RMSE pozwala porównywać różne modele na tym samym zbiorze danych, a nie modele trenowane na różnych zbiorach. W niektórych przypadkach można znormalizować zbiory danych, aby umożliwić takie porównanie.)

W tym ćwiczeniu porównasz modele gradient boosted trees i las losowy (random forest).

Zbiór both_responses, zawierający przewidywany i rzeczywisty rok wydania utworu dla obu modeli, został wcześniej zdefiniowany jako lokalna tibble.

Utwórz zbiór danych z sumą kwadratów reszt.
- Dodaj kolumnę residual równą przewidywanej odpowiedzi minus odpowiedź rzeczywista.
- Pogrupuj dane według zmiennej model.
- Oblicz statystykę podsumowującą rmse, równą pierwiastkowi kwadratowemu ze średniej kwadratów wartości residual.

ćwiczenie

Porównanie wydajności modeli

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie