1. 学习
  2. /
  3. 课程
  4. /
  5. Machine Learning trong tidyverse

Connected

练习

Tách tập kiểm tra – huấn luyện

Trong một quy trình Machine Learning bài bản, điều quan trọng là phải giữ lại một phần dữ liệu (dữ liệu kiểm tra) và không dùng nó trong bất kỳ bước ra quyết định nào. Nhờ vậy, bạn có thể đánh giá độc lập hiệu năng của mô hình sau khi đã hoàn thiện. Phần dữ liệu còn lại, gọi là dữ liệu huấn luyện, được dùng để xây dựng và chọn mô hình tốt nhất.

Trong bài tập này, bạn sẽ dùng gói rsample để chia dữ liệu và thực hiện bước tách ban đầu train-test cho dữ liệu gapminder của bạn.

Lưu ý: Vì việc chia dữ liệu là ngẫu nhiên, bạn nên đặt seed trước khi chia để tái lập kết quả.

说明

100 XP
  • Chia dữ liệu thành 75% huấn luyện và 25% kiểm tra bằng hàm initial_split() và gán vào gap_split.
  • Trích xuất data frame huấn luyện từ gap_split bằng hàm training().
  • Trích xuất data frame kiểm tra từ gap_split bằng hàm testing().
  • Kiểm tra kích thước của các data frame mới có đúng như mong đợi không bằng cách dùng hàm dim() trên training_data và testing_data.