1. Learn
  2. /
  3. Courses
  4. /
  5. R에서 tidymodels로 모델링하기

Connected

Exercise

데이터 리샘플링

Machine Learning 프로젝트의 첫 단계는 모델 학습과 평가를 위해 학습용과 테스트용 데이터셋을 만드는 일이에요. 테스트 데이터셋은 모델이 새로운 데이터에서 어떻게 작동할지 추정하게 해 주며, 과적합을 방지하는 데 도움이 됩니다.

여러분은 통신사 고객 정보를 담은 telecom_df 데이터셋으로 작업하게 돼요. 반응 변수는 canceled_service이며, 고객이 회사와의 계약을 해지했는지를 기록합니다. 예측 변수에는 고객의 휴대전화와 인터넷 사용 정보, 계약 유형, 월 요금 등이 포함되어 있어요.

telecom_df 티블은 이미 세션에 로드되어 있습니다.

Instructions

100 XP
  • telecom_df 데이터를 학습용과 테스트용으로 무작위 분할하는 지침을 담은 rsample 객체 telecom_split을 생성하세요.
    • 데이터의 75%를 학습용으로 할당하고, canceled_service로 층화(stratify)하세요.
  • 적절한 rsample 함수를 사용해 telecom_split 객체로부터 학습용과 테스트용 데이터셋을 만드세요.
  • 각 데이터셋을 nrow() 함수에 전달해 행의 개수를 확인하세요.