1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình hóa với tidymodels trong R

Connected

Bài tập

Tạo tập dữ liệu huấn luyện và kiểm tra

Gói rsample được thiết kế để tạo các tập dữ liệu huấn luyện và kiểm tra. Tạo một tập kiểm tra rất quan trọng để ước lượng cách mô hình đã huấn luyện sẽ hoạt động trên dữ liệu mới. Nó cũng giúp tránh overfitting, khi mô hình ghi nhớ các mẫu chỉ có trong dữ liệu huấn luyện và hoạt động kém trên dữ liệu mới.

Trong bài tập này, bạn sẽ tạo các tập dữ liệu huấn luyện và kiểm tra từ dữ liệu home_sales. Dữ liệu này chứa thông tin về các căn nhà được bán ở khu vực Seattle, Washington trong giai đoạn 2015–2016.

Biến đầu ra trong dữ liệu này là selling_price.

Gói tidymodels sẽ được nạp sẵn trong mọi bài tập của khóa học. Tibble home_sales cũng đã được nạp sẵn cho bạn.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Tạo một đối tượng rsample, home_split, chứa hướng dẫn để chia ngẫu nhiên dữ liệu home_sales thành tập huấn luyện và kiểm tra.
  • Phân bổ 70% dữ liệu vào huấn luyện và phân tầng (stratify) theo selling_price.