sklearn으로 교차 검증하기

2장에서 설명했듯이, 데이터셋에 과적합되는 것은 분석에서 흔한 문제예요. 모델이 학습 데이터에 지나치게 맞춰져서 학습에 사용한 데이터에서는 성능이 아주 좋지만, 그 밖의 데이터에는 일반화하지 못할 때 발생합니다.

2장에서 배운 학습/테스트 분할 기법은 모델이 학습 세트에 과적합되는 것을 막아주지만, 하이퍼파라미터 튜닝 과정에서는 테스트 세트 성능을 최대화하도록 모델을 조정하기 때문에 테스트 구성요소에 과적합될 수 있어요. 따라서 서로 다른 테스트 세트에서 모델을 검증하는 것이 권장됩니다. K-폴드 교차 검증은 이를 가능하게 해 줍니다.