MulaiMulai sekarang secara gratis

Penerbangan terlambat dengan Gradient-Boosted Trees

Sebelumnya Anda telah membangun sebuah classifier untuk memprediksi penerbangan yang kemungkinan terlambat menggunakan Decision Tree. Dalam latihan ini Anda akan membandingkan model Decision Tree dengan model Gradient-Boosted Trees.

Data penerbangan telah dipecah secara acak menjadi flights_train dan flights_test.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Impor kelas yang diperlukan untuk membuat classifier Decision Tree dan Gradient-Boosted Tree.
  • Buat classifier Decision Tree dan Gradient-Boosted Tree. Latih pada data pelatihan.
  • Buat sebuah evaluator dan hitung AUC pada data pengujian untuk kedua classifier. Model mana yang kinerjanya lebih baik?
  • Untuk classifier Gradient-Boosted Tree, cetak jumlah tree dan tingkat kepentingan relatif tiap fitur.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)

# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))

# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)
Edit dan Jalankan Kode