1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 트리 기반 Machine Learning

Connected

연습 문제

과적합 여부 확인하기

$99.9\%$처럼 학습 데이터에서 AUC가 매우 높다면 과적합의 신호일 수 있어요. 물론 데이터셋이 정말 잘 정리되어 있거나, 모델이 정말 훌륭할 수도 있죠!

어떤 경우인지 확인하려면 AUC의 검증용(샘플 외) 추정치를 만들어야 해요. 아직 테스트 세트는 건드리고 싶지 않으니, 학습 세트에서 교차 검증을 사용해 이를 계산할 수 있어요.

작업 공간에는 학습 데이터 customers_train과 배깅 트리 사양 spec_bagged가 준비되어 있어요.

지침

100 XP
  • fit_resamples()를 사용해 학습 세트에서 세 개의 CV 폴드를 적용하고, 모델 수식 still_customer ~ total_trans_amt + customer_age + education_level에 대해 roc_auc 지표를 추정하세요.
  • 결과의 메트릭을 수집해 AUC를 표시하세요.