1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Drzewa wzmacniane gradientowo: wizualizacja

Masz już predykcje modelu – czas sprawdzić, czy są trafne. Istnieje wiele wykresów, które pozwalają ocenić dokładność predykcji. Tutaj przyjrzysz się dwóm najczęściej stosowanym. Po pierwsze, warto narysować wykres punktowy przewidywanych wartości w porównaniu z rzeczywistymi, aby zobaczyć, jak bardzo się różnią. Po drugie, reszty modelu powinny być zbliżone do rozkładu normalnego, dlatego przydatny jest wykres gęstości reszt. Wykresy będą wyglądać mniej więcej tak.

Scatterplot of predicted response vs. actual response and density plot of distribution of residuals side by side.

W tym ćwiczeniu nauczysz się samodzielnie obliczać reszty (wartości przewidywane minus wartości rzeczywiste) dla predykcji swojego modelu.

Instrukcje

100 XP

Lokalna ramka danych responses, zawierająca przewidywane i rzeczywiste lata, została wcześniej zdefiniowana.

  • Narysuj wykres punktowy przewidywanych wartości w porównaniu z rzeczywistymi.
    • Wywołaj ggplot().
    • Pierwszym argumentem jest zbiór danych responses.
    • Drugi argument powinien zawierać nazwy kolumn bez cudzysłowów dla osi x i y (odpowiednio actual i predicted), opakowane w aes().
    • Dodaj punkty, wywołując geom_point().
    • Ustaw częściową przezroczystość punktów, ustawiając alpha = 0.1.
    • Dodaj linię referencyjną, wywołując geom_abline() z argumentami intercept = 0 i slope = 1.
  • Utwórz ramkę danych reszt o nazwie residuals.
    • Wywołaj transmute() na obiekcie responses.
    • Nowa kolumna powinna nazywać się residual.
    • Wartość residual powinna być równa przewidywanej odpowiedzi minus rzeczywista odpowiedź.
  • Narysuj wykres gęstości reszt.
    • Przekaż przekształconą ramkę danych potokiem do ggplot().
    • ggplot() potrzebuje jednej estetyki: residual opakowanego w aes().
    • Dodaj krzywą gęstości prawdopodobieństwa, wywołując geom_density().
    • Dodaj pionową linię referencyjną w zerze, wywołując geom_vline() z argumentem xintercept = 0.