糖尿病予測分類器の評価

この章では、これまでに登場した diabetes_df データセットを使用します。

目標は、BMI（ボディマス指数）と年齢（歳）という特徴量をもとに、各人が糖尿病を発症する可能性があるかどうかを予測することです。これは二値分類問題です。目標値 0 はその人が糖尿病でないことを、値 1 は糖尿病であることを示します。

diabetes_df はpandas DataFrameとしてあらかじめ読み込まれており、X_train、X_test、y_train、y_test に分割済みです。また、KNeighborsClassifier() がインスタンス化され、knn に代入されています。