1. Учиться
  2. /
  3. Courses
  4. /
  5. R에서 대치(Imputation)로 결측치 다루기

Connected

Exercise

kNN 팁 & 트릭 II: 변수 정렬

k-Nearest Neighbors 알고리즘은 데이터를 변수별로 순회하며 결측치를 대체합니다. 이때 다른 변수를 사용해 관측치 간 거리를 계산하는데, 그중 일부 변수는 이전 단계에서 이미 대체되었을 수 있습니다. 즉, 데이터에서 앞쪽에 위치한 변수에 결측치가 많으면, 이후의 거리 계산은 대체값에 크게 의존하게 됩니다. 이는 거리 계산에 잡음을 유발합니다.

이런 이유로, kNN 대체를 수행하기 전에 변수들을 결측치 개수 기준으로 오름차순 정렬하는 것이 좋습니다. 이렇게 하면 각 거리 계산이 가능한 한 많은 실제 관측값과 최소한의 대체값에 기반하게 됩니다.

이제 tao 데이터에 적용해 보겠습니다!

Инструкции

100 XP
  • 파이프라인의 첫 단계에서 tao 각 열의 결측치 개수를 계산하세요.
  • 그런 다음 결측치 개수에 따라 변수를 오름차순으로 정렬하고, 그 이름을 추출해 vars_by_NAs에 할당하세요.
  • select()를 사용해 vars_by_NAs에 저장된 순서로 tao의 변수를 재정렬하세요.
  • 재정렬된 데이터에 k-Nearest Neighbors 대체를 수행하고 결과를 tao_imp에 할당하세요.