1. 学习
  2. /
  3. 课程
  4. /
  5. Pythonで学ぶ木ベースのMachine Learning

Connected

练习

最適な木を評価する

この演習では、grid_dt の最適モデルについて、テストセットの ROC AUC スコアを評価します。

そのために、まずテストセットの各観測値に対して、陽性ラベルとなる確率を求めます。sklearn の分類器の predict_proba() メソッドを使うと、負例クラスと正例クラスの確率を列ごとに格納した2次元配列を計算できます。

データセットはすでに読み込みと前処理(数値特徴量の標準化)が済んでおり、80% を学習、20% をテストに分割しています。X_test、y_test はワークスペースで利用可能です。さらに、前の演習で作成した学習済みの GridSearchCV オブジェクト grid_dt も読み込まれています。grid_dt は次のように学習されています。

grid_dt.fit(X_train, y_train)

说明

100 XP
  • sklearn.metrics から roc_auc_score をインポートします。

  • grid_dt から .best_estimator_ 属性を取り出し、best_model に代入します。

  • テストセットで陽性クラスを得る確率を y_pred_proba として予測します。

  • best_model のテストセット ROC AUC スコア test_roc_auc を計算します。