1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình hóa rủi ro tín dụng bằng R

Connected

Bài tập

Chia tập dữ liệu

Để tạo tập huấn luyện và tập kiểm tra, trước tiên bạn cần đặt seed bằng set.seed(). Seed cho phép bạn tạo một điểm bắt đầu cho các số ngẫu nhiên, để mỗi lần chạy mã đều cho ra cùng một kết quả. Lợi ích khi làm vậy là bạn hoặc bất kỳ ai khác có thể tái tạo đúng y hệt các tập huấn luyện và kiểm tra bằng cách dùng cùng một seed.

Sử dụng sample(), bạn có thể gán ngẫu nhiên các quan sát vào tập huấn luyện và tập kiểm tra.

Trong bài này, bạn sẽ dùng hai đối số đầu tiên của hàm sample():

  • Đối số đầu tiên là vector mà từ đó chúng ta sẽ lấy mẫu. Ta sẽ chọn ngẫu nhiên số thứ tự dòng làm chỉ số; bạn có thể dùng 1:nrow(loan_data) để tạo vector số thứ tự dòng.
  • Đối số thứ hai là số phần tử cần chọn. Ta sẽ nhập 2 / 3 * nrow(loan_data), vì ta tạo tập huấn luyện trước.

Hướng dẫn

100 XP
  • Đặt seed bằng 567 với hàm set.seed().
  • Lưu các chỉ số dòng của tập huấn luyện vào đối tượng index_train. Dùng hàm sample() với đối số thứ nhất và thứ hai như đã nêu ở trên.
  • Tạo tập huấn luyện bằng cách chọn các dòng được lưu trong index_train từ dữ liệu loan_data. Lưu kết quả vào training_set.
  • Tập kiểm tra gồm các dòng không có trong index_train. Sao chép đoạn mã bạn dùng để tạo tập huấn luyện, nhưng đặt dấu âm (-) ngay trước index_train bên trong dấu ngoặc vuông. Lưu kết quả vào test_set.