1. 学习
  2. /
  3. 课程
  4. /
  5. R에서 tidymodels로 모델링하기

Connected

练习

결과 변수 값의 분포

훈련용과 테스트용 데이터셋을 생성할 때 결과 변수로 층화(stratify)하면, 두 데이터셋에서 결과 변수 값의 분포 범위가 비슷해지도록 보장할 수 있어요.

원본 데이터를 무작위로 분할하면, 예를 들어 home_sales의 비싼 주택이 모두 테스트 데이터셋에만 들어가는 상황을 층화로 방지할 수 있습니다. 이런 경우 모델은 상대적으로 저가 주택으로만 학습되어 성능이 떨어질 가능성이 큽니다.

이번 연습에서는 훈련용과 테스트용 데이터셋에서 selling_price 변수의 요약 통계를 계산하겠습니다. home_training과 home_test 티블은 이전 연습 문제에서 불러온 상태예요.

说明 1 / 共 2 个

undefined XP
  • 1
    • home_training에서 selling_price 변수의 최솟값, 최댓값, 평균, 표준편차를 계산하세요.
  • 2
    • home_test에서 selling_price 변수의 최솟값, 최댓값, 평균, 표준편차를 계산하세요.