1. 학습
  2. /
  3. 강의
  4. /
  5. HR Analytics: Python으로 직원 이탈 예측하기

Connected

연습 문제

직원 데이터 분할하기

데이터를 과적합하는 문제는 분석에서 흔하게 발생해요. 모델이 개발에 사용된 데이터셋에서는 잘 작동하지만, 그 밖의 데이터에는 일반화하지 못할 때 이런 일이 생겨요.

모델의 일반화를 보장하기 위해 train/test 분할을 사용해요. 학습 샘플로 모델을 개발하고, 이후 테스트 샘플에서 성능을 확인해요.

이 연습 문제에서는 target과 features를 각각 75%/25% 비율로 학습용과 테스트용 세트로 분할할 거예요.

지침

100 XP
  • sklearn.model_selection 모듈에서 train_test_split을(를) 임포트하세요
  • train_test_split()을 사용해 데이터셋을 학습용과 테스트용 세트로 분할하세요
  • 관측치의 25%를 테스트 세트에 할당하세요