1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 트리 기반 Machine Learning

Connected

연습 문제

클래스 불균형 피하기

일부 데이터는 결과 변화가 매우 불균형할 수 있어요. 예를 들어 희귀 질병 데이터셋이 그렇죠. 무작위로 데이터를 나누면 아주 불운한 분할이 생길 수도 있습니다. 희귀한 관측치가 모두 테스트 세트에만 있고 학습 세트에는 하나도 없다면 어떨까요? 학습 과정 전체가 망가질 거예요!

다행히 initial_split() 함수가 이를 해결해 줍니다. 이번 연습에서는 이렇게 불리는 클래스 불균형을 관찰하고 해결해 보겠습니다.

이미 75% 학습, 25% 테스트로 분할한 분할 객체 diabetes_split을 만드는 코드는 제공되어 있어요.

지침 1/2

undefined XP
  • 1
    • diabetes_split의 학습 세트와 테스트 세트에서 "yes" 결과의 비율을 계산하세요.
  • 2
    • 학습/테스트 비율은 그대로 두고, 두 세트에서 outcome 변수가 고르게 분포되도록 diabetes_split을 다시 만드세요.
    • 두 데이터셋에서 yes 결과의 비율을 계산하세요.