1. 学ぶ
  2. /
  3. コース
  4. /
  5. scikit-learn による教師あり学習

Connected

演習

糖尿病予測分類器の評価

この章では、これまでに登場した diabetes_df データセットを使用します。

目標は、BMI(ボディマス指数)と年齢(歳)という特徴量をもとに、各人が糖尿病を発症する可能性があるかどうかを予測することです。これは二値分類問題です。目標値 0 はその人が糖尿病でないことを、値 1 は糖尿病であることを示します。

diabetes_df はpandas DataFrameとしてあらかじめ読み込まれており、X_train、X_test、y_train、y_test に分割済みです。また、KNeighborsClassifier() がインスタンス化され、knn に代入されています。

モデルを学習させ、テストセットで予測を行い、混同行列と分類レポートを作成しましょう。

指示

100 XP
  • confusion_matrix と classification_report をインポートします。
  • モデルを訓練データに当てはめます。
  • テストセットのラベルを予測し、結果を y_pred として保存します。
  • テストラベルと予測ラベルを比較した混同行列と分類レポートを計算して出力します。