1. Learn
  2. /
  3. Courses
  4. /
  5. Python으로 연습하는 Machine Learning 면접 질문

Connected

Exercise

Train/Test 분포

Machine Learning 면접에서는 훈련 데이터와 테스트 데이터를 거의 반드시 다루게 돼요. 앞서 논의했듯이, 훈련용과 테스트용 데이터셋의 분포가 다르면 모델 성능이 저하될 수 있어요.

이 연습에서는 sklearn.model_selection의 함수들과 seaborn, matplotlib.pyplot을 사용해 loan_data를 훈련 세트와 테스트 세트로 나누고, 분포를 시각화해 차이가 있는지 확인해 보세요.

seaborn과 matplotlib.pyplot은 이미 작업 공간에 각각 sns, plt로 임포트되어 있어요.

파이프라인에는 이제 Train/Test split 단계가 포함됩니다:

Machine learning pipeline

Instructions

100 XP
  • loan_data에서 Credit Score와 Annual Income 특성, 그리고 타깃 변수 Loan Status만 그 순서대로 서브셋을 만드세요.
  • loan_data를 80/20으로 분할하고 결과를 loan_data_subset에 저장하세요.
  • trainingSet과 testSet에 대해 그 순서대로 pairplot을 만들고, hue 인수는 타깃 변수 Loan Status로 설정하세요.