1. Learn
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 예측 분석 입문

Connected

Exercise

데이터 분할

모델을 제대로 평가하려면 데이터를 학습 세트와 테스트 세트로 분할해야 해요. 학습 세트는 모델을 학습하는 데 사용하고, 테스트 세트는 모델을 평가하는 데 사용해요. 이 분할은 무작위로 이루어지지만, 타깃 발생 비율이 낮을 때는 층화(stratification)를 사용해 학습 세트와 테스트 세트에 동일한 비율의 타깃이 포함되도록 해야 할 수 있어요.

이 연습 문제에서는 층화를 적용해 데이터를 분할하고, 학습 세트와 테스트 세트의 타깃 발생 비율이 같은지 확인할 거예요. train_test_split 메서드는 이미 임포트되어 있으며, X와 y DataFrame은 작업 공간에 준비되어 있어요.

Instructions

100 XP
  • train_test_split 메서드를 사용해 이 DataFrame들을 층화하여 분할하세요. 학습 세트와 테스트 세트의 크기가 같고, 타깃 발생 비율도 같도록 하세요.
  • 학습 세트의 타깃 발생 비율을 계산하세요. 이는 학습 세트의 타깃 개수를 학습 세트의 관측치 수로 나눈 값이에요.
  • 테스트 세트의 타깃 발생 비율을 계산하세요.