1. 学习
  2. /
  3. 课程
  4. /
  5. Python으로 연습하는 Machine Learning 면접 질문

Connected

练习

이상치 처리하기

이전 연습 문제에서는 이상치를 시각화하는 방법이 Machine Learning 면접에서 유용할 수 있다는 점을 배웠어요. 이상치를 처리하는 또 다른 편리한 방법은 평균에서 약 +/-3 표준편차 떨어진 값을 기준으로 임계값을 제시하는 Z-점수(Z-score)를 계산하는 것이에요.

이번 연습 문제에서는 scipy.stats 모듈을 사용해 stats.zscore() 함수로 Z-점수를 계산하고, Winsorizing 기법을 적용해 이상치를 대체하는 mstats.winsorize() 함수를 사용해 볼 거예요.

영상 강의에서 배운 것처럼, IQR의 1.5배보다 위나 아래에 있는 점들은 잠재적 이상치로 의심해야 해요. 이 연습 문제의 마지막 단계에서 사용할 그 값은 2120이에요.

필요한 패키지는 이미 임포트되어 있으며, loan_data의 수치형 컬럼과 범주형 컬럼은 각각 numeric_cols와 categoric_cols로 부분 집합화되어 저장되어 있어요.

Machine learning pipeline

说明 1 / 共 3 个

undefined XP
  • 1
    • 수치형 컬럼에 대해 절대 Z-점수가 3 미만인 행들의 인덱스를 만들고, 이를 사용해 부분 집합을 인덱싱한 뒤 연결하세요.
  • 2
    • 'Monthly Debt'를 상하한 각각 5%로 Winsorize하고, 전후의 평균, 중앙값, 최댓값을 출력하세요.
  • 3
    • Monthly Debt에서 2120보다 작은 값들의 중앙값을 구하고, 이상치를 그 값으로 대체하세요.