Pembagian train/test
Untuk menilai sebuah model Machine Learning secara objektif, Anda perlu mengujinya pada himpunan data yang independen. Anda tidak bisa menggunakan data yang sama dengan yang digunakan untuk melatih model: tentu saja model akan berkinerja (relatif) baik pada data tersebut!
Anda akan membagi data menjadi dua komponen:
- data pelatihan (digunakan untuk melatih model), dan
- data pengujian (digunakan untuk menguji model).
Catatan: Mulai dari sini Anda akan bekerja dengan subset data penerbangan yang lebih kecil agar latihan berjalan lebih cepat.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Secara acak bagi data
flightsmenjadi dua himpunan dengan proporsi 80:20. Untuk dapat direplikasi, atur seed bilangan acak sebesar 43 untuk pembagiannya. - Periksa bahwa data pelatihan memiliki sekitar 80% rekaman dari data asli.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)
# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)