1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z PySpark

Connected

ćwiczenie

Oceń drzewo decyzyjne

Jakość modelu możesz ocenić, sprawdzając, jak dobrze radzi sobie z danymi testowymi. Ponieważ model nie był na nich trenowany, ocena jest obiektywna.

Macierz pomyłek to przydatne zestawienie predykcji względem znanych wartości. Składa się z czterech komórek, które zawierają liczby:

  • Prawdziwych negatywów (TN) — model przewiduje wynik negatywny, a rzeczywisty wynik jest negatywny
  • Prawdziwych pozytywów (TP) — model przewiduje wynik pozytywny, a rzeczywisty wynik jest pozytywny
  • Fałszywych negatywów (FN) — model przewiduje wynik negatywny, ale rzeczywisty wynik jest pozytywny
  • Fałszywych pozytywów (FP) — model przewiduje wynik pozytywny, ale rzeczywisty wynik jest negatywny.

Suma tych wartości (TN, TP, FN i FP) powinna być równa liczbie rekordów w danych testowych, które stanowią jedynie podzbiór danych o lotach. Możesz porównać ją z liczbą rekordów w zbiorze testowym, czyli flights_test.count().

Uwaga: Predykcje są wykonywane na danych testowych, dlatego liczby są mniejsze niż byłyby dla predykcji na danych treningowych.

Instrukcje

100 XP
  • Utwórz macierz pomyłek, zliczając kombinacje wartości label i prediction. Wyświetl wynik.
  • Policz liczbę prawdziwych negatywów, prawdziwych pozytywów, fałszywych negatywów i fałszywych pozytywów.
  • Oblicz dokładność modelu.