1. 학습
  2. /
  3. 강의
  4. /
  5. Uczenie maszynowe z PySpark

Connected

연습 문제

Podział na zbiór treningowy i testowy

Aby obiektywnie ocenić model uczenia maszynowego, musisz przetestować go na niezależnym zbiorze danych. Nie możesz używać tych samych danych, których użyto do trenowania modelu – siłą rzeczy wypadłby na nich dobrze!

Podzielisz dane na dwie części:

  • dane treningowe (służące do trenowania modelu) oraz
  • dane testowe (służące do oceny modelu).

Uwaga: Od tego momentu będziesz pracować z mniejszym podzbiorem danych o lotach, co przyspieszy wykonywanie ćwiczeń.

지침

100 XP
  • Losowo podziel dane flights na dwa zbiory w proporcji 80:20. Aby zapewnić powtarzalność wyników, ustaw ziarno generatora liczb losowych na 43.
  • Sprawdź, czy zbiór treningowy zawiera około 80% rekordów z oryginalnych danych.