클래스 불균형 피하기

일부 데이터는 결과 변화가 매우 불균형할 수 있어요. 예를 들어 희귀 질병 데이터셋이 그렇죠. 무작위로 데이터를 나누면 아주 불운한 분할이 생길 수도 있습니다. 희귀한 관측치가 모두 테스트 세트에만 있고 학습 세트에는 하나도 없다면 어떨까요? 학습 과정 전체가 망가질 거예요!

다행히 initial_split() 함수가 이를 해결해 줍니다. 이번 연습에서는 이렇게 불리는 클래스 불균형을 관찰하고 해결해 보겠습니다.

이미 75% 학습, 25% 테스트로 분할한 분할 객체 diabetes_split을 만드는 코드는 제공되어 있어요.