Mengevaluasi Random Forest
Pada latihan terakhir ini, Anda akan mengevaluasi hasil cross-validation pada model Random Forest.
Berikut ini telah disiapkan:
cv— sebuah cross-validator yang sudah di-fit pada data pelatihanevaluator— sebuah objekBinaryClassificationEvaluatordanflights_test— data pengujian.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Cetak daftar metrik AUC rata-rata untuk semua model dalam parameter grid.
- Tampilkan AUC rata-rata untuk model terbaik. Ini akan menjadi AUC terbesar dalam daftar.
- Cetak penjelasan parameter
maxDepthdanfeatureSubsetStrategyuntuk model terbaik. - Tampilkan AUC untuk prediksi model terbaik pada data pengujian.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Average AUC for each parameter combination in grid
print(cv.____)
# Average AUC for the best model
print(____(____))
# What's the optimal parameter value for maxDepth?
print(cv.____.explainParam('____'))
# What's the optimal parameter value for featureSubsetStrategy?
print(cv.____.____(____))
# AUC for best model on testing data
print(evaluator.____(____.____(____)))