1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình hóa với tidymodels trong R

Connected

Bài tập

Lấy mẫu lại dữ liệu

Bước đầu tiên trong một dự án Machine Learning là tạo các tập huấn luyện và kiểm tra để huấn luyện và đánh giá mô hình. Tập kiểm tra giúp ước lượng cách mô hình hoạt động trên dữ liệu mới và giúp hạn chế overfitting.

Bạn sẽ làm việc với bộ dữ liệu telecom_df chứa thông tin về khách hàng của một công ty viễn thông. Biến kết quả là canceled_service, ghi nhận việc một khách hàng có hủy hợp đồng với công ty hay không. Các biến dự báo chứa thông tin về việc sử dụng điện thoại di động và Internet của khách hàng, cùng loại hợp đồng và phí hàng tháng.

Tibble telecom_df đã được nạp sẵn vào phiên làm việc của bạn.

Hướng dẫn

100 XP
  • Tạo một đối tượng rsample, telecom_split, chứa hướng dẫn để chia ngẫu nhiên dữ liệu telecom_df thành các tập huấn luyện và kiểm tra.
    • Phân bổ 75% dữ liệu cho huấn luyện và phân tầng theo canceled_service.
  • Truyền đối tượng telecom_split vào các hàm rsample phù hợp để tạo tập huấn luyện và tập kiểm tra.
  • Kiểm tra số dòng của mỗi tập dữ liệu bằng cách truyền chúng vào hàm nrow().