1. 학습
  2. /
  3. 강의
  4. /
  5. HR Analytics: Python으로 직원 이탈 예측하기

Connected

연습 문제

sklearn으로 교차 검증하기

2장에서 설명했듯이, 데이터셋에 과적합되는 것은 분석에서 흔한 문제예요. 모델이 학습 데이터에 지나치게 맞춰져서 학습에 사용한 데이터에서는 성능이 아주 좋지만, 그 밖의 데이터에는 일반화하지 못할 때 발생합니다.

2장에서 배운 학습/테스트 분할 기법은 모델이 학습 세트에 과적합되는 것을 막아주지만, 하이퍼파라미터 튜닝 과정에서는 테스트 세트 성능을 최대화하도록 모델을 조정하기 때문에 테스트 구성요소에 과적합될 수 있어요. 따라서 서로 다른 테스트 세트에서 모델을 검증하는 것이 권장됩니다. K-폴드 교차 검증은 이를 가능하게 해 줍니다.

  • 데이터셋을 학습 세트와 테스트 세트로 나눕니다.
  • 모델을 학습하고 예측을 수행한 뒤 점수를 계산합니다(정확도, 정밀도, 재현율 등 원하는 지표를 지정할 수 있어요).
  • 이 과정을 총 k번 반복합니다.
  • 10개 점수의 평균을 출력합니다.

이 연습 문제에서는 우리 데이터셋에 교차 검증을 적용하고, cross_val_score 함수를 사용해 결과를 평가해 보겠습니다.

지침

100 XP
  • 교차 검증을 위한 함수 sklearn.model_selection 모듈의 cross_val_score()를 임포트하세요.
  • cv 하이퍼파라미터로 10 폴드를 지정해, 모델의 교차 검증 점수를 출력하세요.