1. Learn
  2. /
  3. Courses
  4. /
  5. Intermediate Regression in R

Connected

Exercise

Algoritmus logistické regrese

Pojďme nahlédnout pod pokličku a implementovat algoritmus logistické regrese. Protože funkce glm() v R je velmi komplexní, zaměříš se na implementaci jednoduché logistické regrese pro jeden konkrétní dataset.

Místo součtu čtverců jako metriky chceme použít věrohodnost (likelihood). Logaritmická věrohodnost je ale numericky stabilnější, takže využijeme tu. A ještě jedna změna: protože chceme logaritmickou věrohodnost maximalizovat, ale optim() hledá standardně minimum, je snazší pracovat s negativní logaritmickou věrohodností.

Hodnota logaritmické věrohodnosti pro každé pozorování je:

Formula for log-likelihood

Výsledná metrika je záporný součet těchto příspěvků logaritmické věrohodnosti.

Hodnoty vysvětlující proměnné (sloupec time_since_last_purchase z datasetu churn) jsou dostupné jako x_actual. Hodnoty závislé proměnné (sloupec has_churned z datasetu churn) jsou dostupné jako y_actual.

Instructions 1/3

undefined XP
    1
    2
    3
  • Nastav intercept na jedničku.
  • Nastav slope na 0.5.
  • Vypočítej predikované hodnoty y jako intercept plus slope krát skutečné hodnoty x, vše transformované pomocí CDF logistického rozdělení.
  • Vypočítej logaritmickou věrohodnost pro každý člen jako logaritmus predikovaných hodnot y krát skutečné hodnoty y, plus logaritmus jedné minus predikované hodnoty y krát jedna minus skutečné hodnoty y.
  • Vypočítej záporný součet logaritmických věrohodností pro každý člen.