Pembagian train/test

Untuk menilai sebuah model Machine Learning secara objektif, Anda perlu mengujinya pada himpunan data yang independen. Anda tidak bisa menggunakan data yang sama dengan yang digunakan untuk melatih model: tentu saja model akan berkinerja (relatif) baik pada data tersebut!

Anda akan membagi data menjadi dua komponen:

data pelatihan (digunakan untuk melatih model), dan
data pengujian (digunakan untuk menguji model).

Catatan: Mulai dari sini Anda akan bekerja dengan subset data penerbangan yang lebih kecil agar latihan berjalan lebih cepat.

Latihan ini merupakan bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Instruksi latihan

Secara acak bagi data flights menjadi dua himpunan dengan proporsi 80:20. Untuk dapat direplikasi, atur seed bilangan acak sebesar 43 untuk pembagiannya.
Periksa bahwa data pelatihan memiliki sekitar 80% rekaman dari data asli.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)

Edit dan Jalankan Kode