1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 신용 위험 모델링

Connected

연습 문제

훈련 세트 언더샘플링

영상에서 불균형 데이터 문제를 해결하기 위해 언더샘플링 또는 오버샘플링을 사용할 수 있음을 보셨죠. 이번에는 훈련 세트를 언더샘플링하여, 디폴트가 1/3, 비디폴트가 2/3이 되도록 구성해 두었습니다. 결과 데이터 세트는 작업 공간에 undersampled_training_set라는 이름으로 준비되어 있으며, 관측치 수가 더 적습니다(19394건 대신 6570건). 이 연습에서는 이 언더샘플링된 데이터 세트를 사용해 결정나무를 만들어 보겠습니다.

이번 연습과 다음 연습에서 생성되는 나무는 매우 커서, 한눈에 읽기 어렵다는 점을 바로 느끼실 거예요. 지금은 걱정하지 마세요. 다음 영상에서 더 다루기 쉽게 만드는 방법을 알려드리겠습니다!

지침

100 XP
  • rpart 패키지는 이미 설치되어 있습니다. 작업 공간에 패키지를 로드하세요.
  • 제공된 코드를 수정하여 training_set 대신 언더샘플링된 훈련 세트를 사용해 결정나무를 만들고, 인수 control = rpart.control(cp = 0.001)를 추가하세요. 복잡도 매개변수인 cp는 어떤 분할에서든 전체 부적합도 감소의 임계값입니다. cp 기준을 만족하지 못하면 더 이상 분할을 진행하지 않습니다. cp의 기본값은 0.01이지만, 복잡한 문제에서는 cp를 완화하는 것이 좋습니다.
  • plot 함수를 사용해 트리 객체를 그리세요. 균일한 크기의 가지를 얻으려면 두 번째 인수로 uniform = TRUE를 추가하세요.
  • 위 명령은 노드와 간선만 있는 트리를 생성할 뿐, 텍스트(일명 "레이블")는 표시하지 않습니다. 레이블을 추가하려면 text() 함수를 단일 인수 tree_undersample과 함께 사용하세요.