1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 이상치 탐지

Connected

연습 문제

표준화 연습

알 수 없는 분포에 대해 무작정 KNN을 사용하는 것은 위험해요. 특성 분포의 스케일이 서로 다르면 성능이 크게 떨어집니다. 스케일이 맞지 않은 특성은 거리 계산을 왜곡하고, 그 결과 비현실적인 이상치 점수가 나올 수 있어요.

이를 보완하기 위한 일반적인 방법이 표준화(standardization)입니다. 표준화는 각 특성에서 평균을 빼고 표준편차로 나누는 작업으로, 특성의 평균을 0, 분산을 1로 맞춥니다.

이미 로드되어 있는 females 데이터셋으로 표준화를 연습해 보세요.

지침

100 XP
  • StandardScaler() 인스턴스를 생성해 ss로 저장하세요.
  • 특성과 타깃 배열을 각각 X, y로 추출하세요. 타깃은 weightkg 열입니다.
  • StandardScaler()를 X에 학습시키고 동시에 변환하세요.
  • 위 과정을 반복하되, X DataFrame의 열 이름이 보존되도록 처리하세요.