1. 학습
  2. /
  3. 강의
  4. /
  5. Tidyverse로 배우는 Machine Learning

Connected

연습 문제

테스트-훈련 데이터 분할

체계적인 Machine Learning 워크플로에서는 데이터의 일부(테스트 데이터)를 의사결정 과정에서 완전히 제외하는 것이 매우 중요합니다. 이렇게 하면 모델이 완성된 후 성능을 독립적으로 평가할 수 있습니다. 나머지 데이터인 훈련 데이터는 최적의 모델을 구축하고 선택하는 데 사용됩니다.

이번 연습 문제에서는 rsample 패키지를 사용하여 gapminder 데이터를 훈련 세트와 테스트 세트로 분할합니다.

참고: 데이터를 무작위로 분할하므로, 분할 전에 시드(seed)를 설정하는 것이 좋습니다.

지침

100 XP
  • initial_split() 함수를 사용하여 데이터를 훈련 75%, 테스트 25%로 분할하고 gap_split에 할당하세요.
  • training() 함수를 사용하여 gap_split에서 훈련 데이터 프레임을 추출하세요.
  • testing() 함수를 사용하여 gap_split에서 테스트 데이터 프레임을 추출하세요.
  • training_data와 testing_data에 dim() 함수를 적용하여 새로운 데이터 프레임의 차원이 예상한 대로인지 확인하세요.