1. Учиться
  2. /
  3. Courses
  4. /
  5. R로 배우는 Feature Engineering

Connected

Exercise

정규화와 로그 변환

직원을 그만두게 한 요인에 대한 숫자형 데이터가 담긴 attrition_num 데이터셋이 제공됩니다. 포함된 특성은 Age, DistanceFromHome, MonthlyRate 입니다.

이 데이터를 사용해 직원이 계속 근무할 가능성을 예측하는 모델을 만들고자 합니다. 목표 변수는 Attrition이며, factor로 코딩된 이진 변수입니다. 모델링을 준비하는 과정에서, 분포의 왜도를 줄이고 변수마다 척도가 달라 특정 변수가 과도한 영향을 미치는 일을 방지하려고 합니다.

attrition_num 데이터와 train 및 test 분할은 미리 로드되어 있습니다.

Инструкции

100 XP
  • 모든 숫자 예측 변수를 정규화하세요.
  • 모든 숫자형 특성에 대해 offset을 1로 하여 로그 변환을 적용하세요.