1. 학습
  2. /
  3. 강의
  4. /
  5. R에서 대치(Imputation)로 결측치 다루기

Connected

연습 문제

Hot-deck 팁 & 트릭 I: 도메인 내 대치

hot-deck 대치가 변수 간의 관계를 깨뜨릴 때 도움이 되는 한 가지 요령은 도메인 내에서 대치하는 것입니다. 즉, 대치할 변수가 다른 범주형 변수와 상관되어 있다면, 그 범주의 각 수준별로 hot-deck을 따로 실행하는 방식입니다.

예를 들어, 지구 온난화로 평균 기온이 상승하고 있으므로 공기 온도가 시간에 따라 달라질 것이라고 예상할 수 있습니다. tao 데이터에서 사용할 수 있는 시간 지표는 범주형 변수인 year입니다. 먼저 두 개의 관측 연도에서 평균 공기 온도가 서로 다른지 확인한 뒤, 연도 도메인 내에서 hot-deck을 실행해 보세요. 마지막으로 다시 마진 플롯을 그려 대치 성능을 평가합니다.

지침

100 XP
  • 연도별로 air_temp의 평균을 계산하고, 평균 계산에서 NA를 제외한 결과를 average_air_temp라고 하세요.
  • tao 데이터에서 year 도메인 내에서 hot-deck 대치를 사용해 air_temp의 결측값을 대치하고, 결과를 tao_imp에 할당하세요.
  • air_temp와 sea_surface_temp의 마진 플롯을 만드세요. 이때, 플로팅 함수에 전달하는 변수 목록에 air_temp_imp를 포함하는 것을 잊지 마세요.