1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Support Vector Machines bằng R

Connected

Bài tập

Tạo bộ dữ liệu huấn luyện và kiểm tra

Chia một tập dữ liệu thành bộ huấn luyện và bộ kiểm tra là bước quan trọng khi xây dựng và đánh giá mô hình phân loại. Bộ huấn luyện dùng để xây dựng mô hình, còn bộ kiểm tra dùng để đánh giá độ chính xác dự đoán.

Trong bài tập này, bạn sẽ chia tập dữ liệu mà bạn đã tạo ở chương trước thành bộ huấn luyện và bộ kiểm tra. Tập dữ liệu đã được nạp vào data frame df và seed đã được thiết lập để đảm bảo khả năng tái lập. Hãy nhớ rằng trong video trước, chúng ta đã đặt cận trên cho độ dài của bộ huấn luyện bằng một vài hàm tiện lợi — giờ đến lượt bạn tự triển khai chúng!

Hướng dẫn

100 XP
  • Xác định cận trên cho số lượng hàng thuộc bộ huấn luyện và lưu vào sample_size.
  • Tạo vector train lưu trữ chỉ số các hàng được gán ngẫu nhiên vào bộ huấn luyện theo tỷ lệ 80/20.
  • Gán các hàng có trong vector train vào data frame trainset và phần còn lại vào data frame testset.