Mulai sekarangMulai gratis

Penerbangan tertunda dengan Random Forest

Dalam latihan ini Anda akan menggabungkan cross validation dan metode ensemble. Anda akan melatih sebuah classifier Random Forest untuk memprediksi penerbangan yang tertunda, menggunakan cross validation untuk memilih nilai parameter model yang terbaik.

Anda akan mencari nilai yang baik untuk parameter berikut:

  • featureSubsetStrategy — jumlah fitur yang dipertimbangkan untuk pemisahan pada setiap node, dan
  • maxDepth — jumlah maksimum pemisahan sepanjang suatu cabang.

Sayangnya pembuatan model ini memakan waktu terlalu lama, sehingga kita tidak akan menjalankan metode .fit() pada pipeline.

Kelas RandomForestClassifier sudah diimpor ke sesi.

Latihan ini merupakan bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Instruksi latihan

  • Buat objek classifier random forest.
  • Buat objek pembuat parameter grid. Tambahkan titik kisi untuk parameter featureSubsetStrategy dan maxDepth.
  • Buat evaluator klasifikasi biner.
  • Buat objek cross-validator, tentukan estimator, parameter grid, dan evaluator. Pilih cross validation 5-fold.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a random forest classifier
forest = ____()

# Create a parameter grid
params = ____() \
            .____(____, ['all', 'onethird', 'sqrt', 'log2']) \
            .____(____, [2, 5, 10]) \
            .____()

# Create a binary classification evaluator
evaluator = ____()

# Create a cross-validator
cv = ____(____, ____, ____, ____)
Edit dan Jalankan Kode