1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học có giám sát trong R: Phân loại

Connected

Bài tập

Tạo tập kiểm tra ngẫu nhiên

Trước khi xây dựng một mô hình cho vay tinh vi hơn, điều quan trọng là giữ lại một phần dữ liệu khoản vay để mô phỏng mức độ dự đoán kết quả của các hồ sơ vay trong tương lai.

Như minh họa trong hình dưới đây, bạn có thể dùng 75% quan sát để huấn luyện và 25% để kiểm tra mô hình.

Hàm sample() có thể dùng để tạo một mẫu ngẫu nhiên các dòng đưa vào tập huấn luyện. Chỉ cần cung cấp tổng số quan sát và số lượng cần cho huấn luyện.

Hãy dùng vector ID dòng thu được để chia loans thành các tập dữ liệu huấn luyện và kiểm tra. Dataset loans đã sẵn sàng để bạn sử dụng.

Hướng dẫn

100 XP
  • Dùng hàm nrow() để xác định có bao nhiêu quan sát trong dataset loans, và số lượng cần cho mẫu 75%.
  • Dùng hàm sample() để tạo một vector số nguyên gồm các ID dòng cho mẫu 75%. Đối số thứ nhất của sample() là số dòng trong dataset, còn đối số thứ hai là số dòng bạn cần cho tập huấn luyện.
  • Chia nhỏ dữ liệu loans theo các ID dòng để tạo tập huấn luyện. Lưu lại dưới tên loans_train.
  • Chia loans lần nữa, nhưng lần này chọn tất cả các dòng KHÔNG thuộc sample_rows. Lưu lại dưới tên loans_test