Algorytm regresji logistycznej

Zajrzyjmy do środka i zaimplementujmy algorytm regresji logistycznej. Ponieważ funkcja glm() w R jest bardzo rozbudowana, ograniczymy się do implementacji prostej regresji logistycznej dla jednego zbioru danych.

Zamiast sumy kwadratów jako miary dopasowania, użyjemy wiarygodności (ang. likelihood). Ponieważ logarytm wiarygodności jest bardziej stabilny obliczeniowo, to właśnie jego użyjemy. Jest jeszcze jedna zmiana: chcemy maksymalizować logarytm wiarygodności, ale optim() domyślnie szuka minimum – łatwiej jest więc obliczać ujemny logarytm wiarygodności.

Wartość logarytmu wiarygodności dla każdej obserwacji wynosi

Wzór na logarytm wiarygodności

Miarą do obliczenia jest minus suma tych składników logarytmu wiarygodności.

Wartości zmiennej objaśniającej (kolumna time_since_last_purchase ze zbioru churn) są dostępne jako x_actual. Wartości zmiennej odpowiedzi (kolumna has_churned ze zbioru churn) są dostępne jako y_actual.

Ustaw wyraz wolny na jeden.
Ustaw nachylenie na 0.5.
Oblicz przewidywane wartości y jako sumę wyrazu wolnego i iloczynu nachylenia oraz rzeczywistych wartości x, przekształconą dystrybuantą rozkładu logistycznego.
Oblicz logarytm wiarygodności dla każdego składnika jako logarytm przewidywanych wartości y pomnożony przez rzeczywiste wartości y, plus logarytm jedności minus przewidywane wartości y pomnożony przez jedność minus rzeczywiste wartości y.
Oblicz minus sumę logarytmów wiarygodności dla wszystkich składników.

연습 문제

Algorytm regresji logistycznej

지침 1/3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침 1/3

연습 문제