1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Intermediate Regression in R

Connected

cvičení

Vizualizace více vysvětlujících proměnných

Logistická regrese také podporuje více vysvětlujících proměnných. Vizualizace přináší podobné komplikace jako v případě lineární regrese: čím více číselných proměnných chceme zobrazit, tím rychleji se graf stává nepřehledným. V tomto cvičení se zaměříme na případ dvou číselných vysvětlujících proměnných – a řešení je v podstatě stejné jako dříve: odpověď (response) odlišíme barvou.

Zdejší proměnná odpovědi nabývá pouze dvou hodnot (nula a jedna). Jakmile ale do grafu přidáme predikované hodnoty, budou všechny ležet mezi nulou a jedničkou. V takovém případě je klíčové rozpoznat, zda jsou předpovědi blíže nule, nebo jedničce. Proto se hodí dvoubarevný gradient s dělicím bodem 0,5: hodnoty nad 0,5 budou mít jednu barvu a hodnoty pod 0,5 barvu druhou.

Dataset churn je k dispozici; ggplot2 je načteno.

Pokyny

100 XP
  • Z datasetu churn vytvoř graf závislosti aktuálnosti nákupu, time_since_last_purchase, na délce zákaznického vztahu, time_since_first_purchase, s barevným rozlišením podle toho, zda zákazník odešel, has_churned.
  • Přidej vrstvu bodů s průhledností nastavenou na 0.5.
  • Použij dvoubarevný gradient s dělicím bodem 0.5.
  • Použij černo-bílý motiv.