1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 트리 기반 Machine Learning

Connected

연습 문제

From zero to hero

모델 사양을 만들고 데이터를 학습용/테스트용 세트로 분할하는 기술을 익히셨네요. 또한 분할 시 클래스 불균형을 피하는 방법도 알고 계세요. 이제 앞선 레슨에서 배운 내용을 합쳐, 학습 세트만 사용해 모델을 만들어 볼 차례입니다!

이제 제대로 된 machine learning pipeline을 구축할 거예요. 모델 사양을 만들고, 데이터를 학습/테스트 세트로 분할하고, 마지막으로 학습 데이터를 모델에 적합하는 과정으로 구성됩니다. 즐겁게 해 보세요!

지침

100 XP
  • 학습 세트가 전체 diabetes 행의 4분의 3을 포함하고, 학습/테스트 세트 모두 outcome 변수의 분포가 비슷해지도록 diabetes_split 분할을 생성하세요.
  • rpart 엔진을 사용하는 의사결정나무 모델 사양을 만들고 tree_spec으로 저장하세요.
  • diabetes_split의 학습용 데이터를 사용해, 목표 변수를 outcome으로, 예측 변수를 bmi와 skin_thickness로 하여 모델 model_trained를 적합하세요.