Anatomi Model Machine Learning
Sekarang, Anda akan memperkuat pemahaman tentang bagaimana data memengaruhi kinerja model. Anda akan bekerja dengan himpunan data pemesanan Airbnb (dalam berkas booking.csv). Himpunan data ini cocok untuk tugas klasifikasi guna memprediksi apakah seseorang akan membatalkan pemesanan. Data berisi beberapa kolom numerik dan kategorikal.
Anda akan membagi himpunan data yang disediakan menjadi tiga sampel yang saling eksklusif — train_A.csv, train_B.csv, dan test.csv — menggunakan skrip split_dataset.py. Selanjutnya, untuk masing-masing himpunan data pelatihan, Anda akan menjalankan pipeline pemrosesan data dan pelatihan model untuk melatih model Random Forest Classifier dan menguji kinerjanya pada himpunan uji menggunakan model_training.py. Hiperparameter yang didefinisikan di params.json konsisten pada kedua kali pelatihan.
Skrip Python dirancang untuk menerima argumen baris perintah dan dijalankan melalui shell. Silakan jelajahi skrip-skrip ini untuk memperkaya pemahaman Anda.
Latihan ini adalah bagian dari kursus
Pengantar Versioning Data dengan DVC
Latihan interaktif praktis
Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.
Mulai berolahraga