1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Rozdělení na trénovací a testovací sadu

Aby bylo možné objektivně vyhodnotit model strojového učení, je potřeba ho otestovat na nezávislé sadě dat. Nemůžeš použít stejná data, na kterých jsi model trénoval/a – na těch by přirozeně fungoval (relativně) dobře!

Data rozdělíš do dvou částí:

  • trénovací data (slouží k trénování modelu) a
  • testovací data (slouží k otestování modelu).

Poznámka: Od teď budeš pracovat s menší podmnožinou dat o letech, díky které budou cvičení běžet rychleji.

Pokyny

100 XP
  • Náhodně rozděl data flights do dvou sad v poměru 80:20. Pro zajištění opakovatelnosti nastav zárodek generátoru náhodných čísel na hodnotu 43.
  • Ověř, že trénovací sada obsahuje přibližně 80 % záznamů z původních dat.