Penerbangan tertunda dengan Random Forest
Dalam latihan ini Anda akan menggabungkan cross validation dan metode ensemble. Anda akan melatih sebuah classifier Random Forest untuk memprediksi penerbangan yang tertunda, menggunakan cross validation untuk memilih nilai parameter model yang terbaik.
Anda akan mencari nilai yang baik untuk parameter berikut:
featureSubsetStrategy— jumlah fitur yang dipertimbangkan untuk pemisahan pada setiap node, danmaxDepth— jumlah maksimum pemisahan sepanjang suatu cabang.
Sayangnya pembuatan model ini memakan waktu terlalu lama, sehingga kita tidak akan menjalankan metode .fit() pada pipeline.
Kelas RandomForestClassifier sudah diimpor ke sesi.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Buat objek classifier random forest.
- Buat objek pembuat parameter grid. Tambahkan titik kisi untuk parameter
featureSubsetStrategydanmaxDepth. - Buat evaluator klasifikasi biner.
- Buat objek cross-validator, tentukan estimator, parameter grid, dan evaluator. Pilih cross validation 5-fold.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)