로그와 거듭제곱 변환

이전 연습 문제에서는 loan_data의 학습용 데이터셋과 테스트 데이터셋 분포를 비교했어요. Machine Learning 면접에서는 특히 중요합니다. 관측된 분포에 따라, 정규성 가정을 위배하지 않도록 특징 분포를 정규 분포에 가깝게 만드는 변환 기법이 필요한지 판단해야 하기 때문이에요.

이번 연습 문제에서는 scipy.stats 모듈의 로그 및 거듭제곱(Box-Cox) 변환을 loan_data의 Years of Credit History 특징에 적용하고, seaborn의 distplot() 함수로 분포와 커널 밀도 추정(kde)을 함께 시각화해 볼 거예요.

필요한 패키지는 모두 임포트되어 있어요.