1. 학습
  2. /
  3. 강의
  4. /
  5. R에서 대치(Imputation)로 결측치 다루기

Connected

연습 문제

이웃 수 선택하기

k-Nearest-Neighbors(kNN) 대치는 어떤 관측값과 가장 비슷한 다른 k개의 관측값에서 가져온 값을 바탕으로 결측값을 채웁니다. 고려할 이 비슷한 관측값의 수, 즉 이웃 수는 미리 선택해야 하는 매개변수입니다.

그렇다면 k는 어떻게 선택할까요? 한 가지 방법은 여러 값을 시도해 보고, 대치된 값과 관측된 값 사이의 관계에 어떤 영향을 주는지 확인하는 것입니다.

이제 tao 데이터에서 humidity를 세 가지 서로 다른 k 값으로 대치해 보고, 대치된 값이 humidity와 sea_surface_temp 사이의 관계에 얼마나 잘 맞는지 살펴보세요.

지침 1/3

undefined XP
  • 1
    • 30개의 이웃을 사용해 kNN 대치로 humidity를 대치하고, sea_surface_temp 대 humidity의 marginplot()을 그리세요.
  • 2
    • 15개의 이웃을 사용해 kNN 대치로 humidity를 대치하고, sea_surface_temp 대 humidity의 마진 플롯을 그리세요.
  • 3
    • 5개의 이웃을 사용해 kNN 대치로 humidity를 대치하고, sea_surface_temp 대 humidity의 마진 플롯을 그리세요.