1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 신용 위험 모델링

Connected

연습 문제

이상치

이제 변수 age의 구조를 살펴보겠습니다. 오른쪽에 히스토그램이 그려져 있어요. 연간 소득(annual_inc) 영상에서 보셨던 것처럼, 플롯의 오른쪽에 빈 공간이 많이 보입니다. 이는 이상치가 있을 가능성을 시사해요. 이를 확인하기 위해 산점도를 살펴보고, 이상치가 있으면 삭제해 보겠습니다.

여러 변수에서 이상치가 관찰되면, 이변량 플롯을 확인하는 것이 도움이 될 수 있어요. 이상치가 동일한 관측치에 속할 수도 있습니다. 그런 경우라면 그 관측치에 저장된 정보 중 일부가 틀렸을 가능성이 더 크므로, 관측치를 삭제할 이유가 더욱 충분해집니다.

지침

100 XP
  • plot() 함수를 사용해 변수 age(즉, loan_data$age)의 산점도를 그리세요. 두 번째 인자로 ylab을 사용해 y축 라벨을 "Age"로 지정하세요.
  • 이 데이터셋에서 가장 나이가 많은 사람은 122세보다 많습니다! which()를 사용해 122세를 기준으로 한 이상치의 인덱스를 구하세요(예: loan_data$age > 122). 결과를 객체 index_highage에 할당하세요.
  • index_highage 객체를 사용해 높은 나이의 관측치를 제거한 뒤, 새로운 데이터셋 new_data를 만드세요.
  • x축에 나이, y축에 연간 소득을 둔 이변량 산점도를 확인하세요. 축 라벨은 각각 "Age"와 "Annual Income"으로 바꾸세요.