1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Vyhodnocení rozhodovacího stromu

Kvalitu modelu můžeš posoudit tak, že zjistíš, jak dobře si vede na testovacích datech. Protože model na těchto datech nebyl trénován, jde o objektivní hodnocení.

Matice záměn (confusion matrix) přehledně ukazuje, jak se předpovědi shodují se skutečnými hodnotami. Obsahuje čtyři buňky s počty:

  • True Negatives (TN) — model předpovídá negativní výsledek a skutečný výsledek je negativní
  • True Positives (TP) — model předpovídá pozitivní výsledek a skutečný výsledek je pozitivní
  • False Negatives (FN) — model předpovídá negativní výsledek, ale skutečný výsledek je pozitivní
  • False Positives (FP) — model předpovídá pozitivní výsledek, ale skutečný výsledek je negativní.

Součet těchto hodnot (TN, TP, FN a FP) musí odpovídat počtu záznamů v testovacích datech, která jsou jen podmnožinou dat o letech. Můžeš ho porovnat s počtem záznamů v testovací sadě pomocí flights_test.count().

Poznámka: Tyto předpovědi jsou vytvořeny na testovacích datech, takže počty budou nižší, než by byly pro předpovědi na trénovacích datech.

Pokyny

100 XP
  • Vytvoř matici záměn tak, že spočítáš kombinace hodnot label a prediction. Výsledek zobraz.
  • Spočítej počet True Negatives, True Positives, False Negatives a False Positives.
  • Vypočítej přesnost modelu.