1. 학습
  2. /
  3. 강의
  4. /
  5. scikit-learn으로 배우는 지도 학습

Connected

연습 문제

당뇨병 예측 분류기 평가하기

이 챕터에서는 앞서 소개된 diabetes_df 데이터셋을 사용합니다.

목표는 체질량지수(BMI)와 나이(연 단위) 특성을 바탕으로 각 개인의 당뇨병 여부를 예측하는 것입니다. 따라서 이진 분류 문제에 해당합니다. 타깃 값이 0이면 당뇨병이 없음을, 1이면 당뇨병이 있음을 의미합니다.

diabetes_df는 pandas DataFrame으로 미리 로드되어 있으며, X_train, X_test, y_train, y_test로 분할되어 있습니다. 또한 KNeighborsClassifier()가 인스턴스화되어 knn에 할당되어 있습니다.

모델을 학습시키고, 테스트 세트에 대한 예측을 수행한 후, 혼동 행렬(confusion matrix)과 분류 보고서(classification report)를 생성해 보세요.

지침

100 XP
  • confusion_matrix와 classification_report를 임포트하세요.
  • 모델을 훈련 데이터에 학습시키세요.
  • 테스트 세트의 레이블을 예측하고, 결과를 y_pred에 저장하세요.
  • 테스트 레이블과 예측 레이블을 비교하는 혼동 행렬과 분류 보고서를 계산하고 출력하세요.