1. Learn
  2. /
  3. Courses
  4. /
  5. Python에서의 모델 검증

Connected

Exercise

과소/과적합으로 인한 오류

사탕 데이터셋은 과적합이 일어나기 쉽습니다. 관측치가 85개뿐인데 테스트 데이터셋으로 20%를 쓰면, 모델링에 쓸 수 있는 중요한 데이터가 많이 줄어듭니다. 예를 들어, 초콜릿 사탕의 대부분이 학습 데이터에 들어가고 홀드아웃 샘플에는 거의 없다면 어떨까요? 모델은 초콜릿 여부만 중요한 요인이라고만 보고, 다른 속성들의 중요성은 놓칠 수 있습니다. 이 연습에서는 랜덤 포레스트 모델에서 너무 많은 특징(열)을 사용할 때 과적합이 어떻게 발생하는지 살펴보겠습니다.

여기서 feature는 결정 트리에서 사용할 데이터의 열을 뜻합니다. max_features 매개변수는 사용할 수 있는 feature의 수를 제한합니다.

Instructions 1/3

undefined XP
  • 1

    트리 25개, random_state는 1111, max_features는 2로 랜덤 포레스트 모델을 만드세요. 출력된 문장을 읽어 보세요.

  • 2

    max_features를 11(데이터셋의 열 개수)로 설정하세요. 출력된 문장을 읽어 보세요.

  • 3

    max_features를 4로 설정하세요. 출력된 문장을 읽어 보세요.