1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Vyhodnocení modelu logistické regrese

Přesnost (accuracy) obecně není příliš spolehlivá metrika, protože může být zkreslena nejčastější třídou cílové proměnné.

Existují dvě další užitečné metriky:

  • přesnost (precision) a
  • úplnost (recall).

Podívej se na snímky k této lekci, kde najdeš příslušné vzorce.

Přesnost (precision) je podíl pozitivních predikcí, které jsou správné. Ze všech letů, u nichž model predikuje zpoždění, kolik z nich je skutečně zpožděno?

Úplnost (recall) je podíl skutečně pozitivních výsledků, které jsou správně predikované. Ze všech zpožděných letů, kolik z nich model správně identifikuje?

Přesnost i úplnost jsou obvykle formulovány ve vztahu k pozitivní třídě cílové proměnné. Je ale také možné vypočítat vážené verze těchto metrik, které berou v úvahu obě třídy.

Složky matice záměn jsou dostupné jako TN, TP, FN a FP, spolu s objektem prediction.

Pokyny

100 XP
  • Zjisti přesnost (precision) a úplnost (recall).
  • Vytvoř evaluátor pro více tříd a vyhodnoť váženou přesnost (weighted precision).
  • Vytvoř binární evaluátor a vyhodnoť AUC pomocí metriky "areaUnderROC".