데이터 분할

모델을 제대로 평가하려면 데이터를 학습 세트와 테스트 세트로 분할해야 해요. 학습 세트는 모델을 학습하는 데 사용하고, 테스트 세트는 모델을 평가하는 데 사용해요. 이 분할은 무작위로 이루어지지만, 타깃 발생 비율이 낮을 때는 층화(stratification)를 사용해 학습 세트와 테스트 세트에 동일한 비율의 타깃이 포함되도록 해야 할 수 있어요.

이 연습 문제에서는 층화를 적용해 데이터를 분할하고, 학습 세트와 테스트 세트의 타깃 발생 비율이 같은지 확인할 거예요. train_test_split 메서드는 이미 임포트되어 있으며, X와 y DataFrame은 작업 공간에 준비되어 있어요.