1. Lära sig
  2. /
  3. Courses
  4. /
  5. R에서 tidymodels로 모델링하기

Connected

exercise

훈련용과 테스트용 데이터셋 만들기

rsample 패키지는 훈련용과 테스트용 데이터셋을 만드는 데 사용돼요. 테스트용 데이터셋을 만드는 이유는, 학습된 모델이 새로운 데이터에서 어느 정도 성능을 낼지 추정하기 위해서예요. 또한 모델이 훈련용 데이터에만 존재하는 패턴을 외워서 새로운 데이터에서 성능이 떨어지는 과적합을 방지하는 데에도 도움이 됩니다.

이 연습 문제에서는 home_sales 데이터에서 훈련용과 테스트용 데이터셋을 만들어 볼 거예요. 이 데이터는 2015년부터 2016년 사이 워싱턴주의 시애틀 지역에서 판매된 주택 정보를 담고 있습니다.

이 데이터의 결과 변수는 selling_price입니다.

이 강의의 모든 연습 문제에는 tidymodels 패키지가 미리 로드되어 있습니다. home_sales 티블도 미리 불러와 드렸어요.

Instruktioner 1 / 4

undefined XP
    1
    2
    3
    4
  • rsample 객체 home_split을 만들어 home_sales 데이터를 훈련용과 테스트용으로 무작위 분할하도록 지시하세요.
  • 데이터의 70%를 훈련용으로 할당하고, 결과를 selling_price로 계층화(stratify)하세요.