Train/Test 분포

Machine Learning 면접에서는 훈련 데이터와 테스트 데이터를 거의 반드시 다루게 돼요. 앞서 논의했듯이, 훈련용과 테스트용 데이터셋의 분포가 다르면 모델 성능이 저하될 수 있어요.

이 연습에서는 sklearn.model_selection의 함수들과 seaborn, matplotlib.pyplot을 사용해 loan_data를 훈련 세트와 테스트 세트로 나누고, 분포를 시각화해 차이가 있는지 확인해 보세요.

seaborn과 matplotlib.pyplot은 이미 작업 공간에 각각 sns, plt로 임포트되어 있어요.