1. Nauka
  2. /
  3. Kursy
  4. /
  5. Regresja średnio zaawansowana w R

Connected

ćwiczenie

Wizualizacja wielu zmiennych objaśniających

Regresja logistyczna obsługuje również wiele zmiennych objaśniających. Wizualizacja napotyka tu podobne trudności co w przypadku regresji liniowej: im więcej zmiennych numerycznych, tym trudniej przedstawić je wszystkie na jednym wykresie. Przyjrzymy się sytuacji z dwiema numerycznymi zmiennymi objaśniającymi – rozwiązanie jest zasadniczo takie samo jak wcześniej: kolor służy do oznaczenia zmiennej odpowiedzi.

Zmienna odpowiedzi przyjmuje tu tylko dwie wartości: zero i jeden. Gdy do wykresu dodamy przewidywane odpowiedzi, wszystkie wartości będą się mieścić między zerem a jedynką. Najważniejsze jest wtedy określenie, czy przewidywania są bliskie zera, czy bliskie jedynki. Dlatego dwukolorowy gradient z punktem środkowym w 0,5 jest bardzo przydatny: odpowiedzi powyżej 0,5 mają jeden kolor, a poniżej 0,5 – drugi.

Zbiór danych dotyczący odejść klientów banku jest dostępny jako churn; biblioteka ggplot2 jest załadowana.

Instrukcje

100 XP
  • Korzystając ze zbioru danych churn, stwórz wykres przedstawiający czas od ostatniego zakupu (time_since_last_purchase) w zależności od długości relacji z klientem (time_since_first_purchase), z kolorowaniem według tego, czy klient zrezygnował z usług (has_churned).
  • Dodaj warstwę punktów z przezroczystością ustawioną na 0.5.
  • Użyj dwukolorowego gradientu z punktem środkowym 0.5.
  • Zastosuj czarno-białą motyw wykresu.