1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 Supervised Learning: 분류

Connected

연습 문제

과도하게 성장하는 트리 방지

전체 지원자 데이터로 학습한 트리는 수백 개의 분기와, 소수의 지원자만 포함한 리프 노드가 생길 정도로 매우 크고 복잡해졌습니다. 이런 트리는 대출 심사자가 해석하기 거의 불가능합니다.

조기 중지를 위한 사전 가지치기(pre-pruning) 방법을 사용하면 트리가 너무 크고 복잡해지는 것을 막을 수 있어요. rpart의 최대 트리 깊이와 최소 분할 수 제어 옵션이 결과 트리에 어떤 영향을 주는지 살펴보세요.

loans_train과 loans_test 데이터셋이 준비되어 있고, rpart도 미리 로드되어 있습니다.

지침 1/2

undefined XP
  • 1
    • rpart()를 사용해 학습용 데이터셋과 사용 가능한 모든 예측 변수를 이용하여 대출 모델을 만드세요.
      • 모델 control은 rpart.control()로 설정하고, cp는 0, maxdepth는 6으로 지정하세요.
    • 단순한 모델의 테스트 세트 정확도가 기존의 58.3% 정확도와 어떻게 비교되는지 확인하세요.
      • 먼저 predict() 함수로 예측값 벡터를 만드세요.
      • 예측값을 실제 결과와 비교하고 mean()을 사용해 정확도를 계산하세요.
  • 2

    모델 제어 설정에서 maxdepth를 제거하고, 최소 분할 파라미터 minsplit을 500으로 추가하세요.