1. 学ぶ
  2. /
  3. コース
  4. /
  5. R로 배우는 Supervised Learning: 분류

Connected

演習

결측치 처리하기

일부 잠재 기부자에게는 age 데이터가 없습니다. 아쉽게도 R은 회귀 모델을 만들 때 NA 값을 가진 모든 사례를 제외합니다.

대안으로, 누락된 값을 추정값으로 교체(즉, 결측값을 대치)할 수 있습니다. 그런 다음, 결측치가 있는 사례가 결측치가 없는 사례와 어떤 방식으로든 다를 가능성을 모델링하기 위해 결측치 지표를 추가로 만들 수도 있습니다.

데이터 프레임 donors가 작업 공간에 로드되어 있습니다.

指示

100 XP
  • 결측치가 없는 잠재 기부자의 평균 나이를 확인하려면 donors$age에 summary()를 사용하세요.
  • ifelse()와 테스트 is.na(donors$age)를 사용해, age가 누락된 사례에는 평균값(소수점 둘째 자리로 반올림)을 대치하세요. 이때 NA는 반드시 무시하세요.
  • 동일한 테스트를 사용해 또 다른 ifelse() 호출로 결측치 존재를 나타내는 이진 더미 변수 missing_age를 생성하세요.