MulaiMulai sekarang secara gratis

Pembagian train/test

Untuk menilai sebuah model Machine Learning secara objektif, Anda perlu mengujinya pada himpunan data yang independen. Anda tidak bisa menggunakan data yang sama dengan yang digunakan untuk melatih model: tentu saja model akan berkinerja (relatif) baik pada data tersebut!

Anda akan membagi data menjadi dua komponen:

  • data pelatihan (digunakan untuk melatih model), dan
  • data pengujian (digunakan untuk menguji model).

Catatan: Mulai dari sini Anda akan bekerja dengan subset data penerbangan yang lebih kecil agar latihan berjalan lebih cepat.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Secara acak bagi data flights menjadi dua himpunan dengan proporsi 80:20. Untuk dapat direplikasi, atur seed bilangan acak sebesar 43 untuk pembagiannya.
  • Periksa bahwa data pelatihan memiliki sekitar 80% rekaman dari data asli.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)
Edit dan Jalankan Kode