1. 학습
  2. /
  3. 강의
  4. /
  5. R의 caret로 배우는 Machine Learning

Connected

연습 문제

KNN 대치 사용하기

이전 연습 문제에서는 유방암 데이터셋의 누락값을 중앙값 대치로 채웠지만, 결측치를 처리하는 방법은 이것만 있는 것이 아닙니다.

중앙값 대치의 대안으로 k-최근접 이웃(KNN) 대치가 있습니다. 이는 결측값을 현재 행과 유사한 다른 행의 값으로 대체하는, 더 발전된 형태의 대치 방법입니다. 실제 구현은 단순한 중앙값 대치보다 훨씬 복잡하지만, caret에서는 train()의 preProcess 인자를 사용하면 매우 쉽게 시도해 볼 수 있어요. 모델을 학습하기 전에 사용할 대치 방법을 바꾸려면 preProcess = "knnImpute"라고 지정하기만 하면 됩니다.

지침

100 XP

breast_cancer_x와 breast_cancer_y가 작업 공간에 불러와져 있습니다.

  • train() 함수를 사용해 유방암 데이터셋에 glm 모델을 적합하고, 모델 이름을 knn_model로 하세요.
  • 결측치는 KNN 대치로 처리하세요.