Mengevaluasi & Membandingkan Algoritme
Sekarang setelah kita membuat model baru dengan GBTRegressor, saatnya membandingkannya dengan baseline kita, yaitu RandomForestRegressor. Untuk itu, kita akan membandingkan prediksi kedua model dengan data aktual dan menghitung RMSE serta R^2.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Impor
RegressionEvaluatordaripyspark.ml.evaluationagar dapat digunakan nanti. - Inisialisasi
RegressionEvaluatordengan menetapkanlabelColke data aktual kita,SALESCLOSEPRICE, danpredictionColke data prediksi kita,Prediction_Price. - Untuk menghitung metrik, panggil
evaluatepadaevaluatordengan nilai prediksipredsdan buat dictionary dengan kuncievaluator.metricNamedan nilairmse; lakukan hal yang sama untuk metrikr2.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from ____ import ____
# Select columns to compute test error
evaluator = ____(____=____,
____=____)
# Dictionary of model predictions to loop over
models = {'Gradient Boosted Trees': gbt_predictions, 'Random Forest Regression': rfr_predictions}
for key, preds in models.items():
# Create evaluation metrics
rmse = evaluator.____(____, {____: ____})
r2 = evaluator.____(____, {____: ____})
# Print Model Metrics
print(key + ' RMSE: ' + str(rmse))
print(key + ' R^2: ' + str(r2))