1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 연습하는 Machine Learning 면접 질문

Connected

연습 문제

로그와 거듭제곱 변환

이전 연습 문제에서는 loan_data의 학습용 데이터셋과 테스트 데이터셋 분포를 비교했어요. Machine Learning 면접에서는 특히 중요합니다. 관측된 분포에 따라, 정규성 가정을 위배하지 않도록 특징 분포를 정규 분포에 가깝게 만드는 변환 기법이 필요한지 판단해야 하기 때문이에요.

이번 연습 문제에서는 scipy.stats 모듈의 로그 및 거듭제곱(Box-Cox) 변환을 loan_data의 Years of Credit History 특징에 적용하고, seaborn의 distplot() 함수로 분포와 커널 밀도 추정(kde)을 함께 시각화해 볼 거예요.

필요한 패키지는 모두 임포트되어 있어요.

현재 파이프라인에서의 위치는 다음과 같아요:

Machine learning pipeline

지침 1/3

undefined XP
  • 1
    • loan_data에서 'Years of Credit History'만 하위 집합으로 선택하고, distplot()을 사용해 분포와 커널 밀도 추정(kde)을 시각화하세요.
  • 2
    • Box-Cox 변환을 사용해 cr_yrs에 로그 변환을 적용하고, 그 분포와 kde를 시각화하세요.
  • 3
    • 'Years of Credit History'를 Box-Cox의 제곱근 인자를 사용해 변환하고, 그 분포와 kde를 시각화하세요.