1. Learn
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 트리 기반 Machine Learning

Connected

Exercise

최적 트리 평가하기

이번 연습 문제에서는 grid_dt의 최적 모델에 대해 테스트 세트 ROC AUC 점수를 평가해 보겠습니다.

이를 위해 먼저 테스트 세트 각 관측치에 대해 양성 레이블이 될 확률을 구해야 합니다. sklearn 분류기의 predict_proba() 메서드를 사용하면 음성/양성 클래스 레이블의 확률이 각각 열에 담긴 2차원 배열을 계산할 수 있어요.

데이터셋은 이미 로드 및 전처리(수치형 특성 표준화)되어 있으며, 80% 학습/20% 테스트로 분할되어 있습니다. 작업 공간에는 X_test, y_test가 준비되어 있습니다. 또한 이전 연습 문제에서 생성한 학습된 GridSearchCV 객체 grid_dt도 로드되어 있어요. 참고로 grid_dt는 다음과 같이 학습했습니다:

grid_dt.fit(X_train, y_train)

Instructions

100 XP
  • sklearn.metrics에서 roc_auc_score를 임포트하세요.

  • grid_dt에서 .best_estimator_ 속성을 추출해 best_model에 할당하세요.

  • 테스트 세트에 대해 양성 클래스의 예측 확률을 y_pred_proba로 구하세요.

  • best_model의 테스트 세트 ROC AUC 점수 test_roc_auc를 계산하세요.