1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Machine Learning với caret trong R

Connected

Bài tập

Xáo trộn thứ tự ngẫu nhiên của data frame

Một cách để bạn tách dữ liệu thành tập huấn luyện/kiểm tra là xáo trộn ngẫu nhiên toàn bộ bộ dữ liệu, rồi chia nó thành hai phần. Cách này đảm bảo cả tập huấn luyện và tập kiểm tra đều là các mẫu ngẫu nhiên, và mọi thiên lệch do thứ tự sẵn có của dữ liệu (ví dụ dữ liệu ban đầu được sắp theo giá hoặc kích thước) sẽ không còn trong các mẫu dùng để huấn luyện và kiểm tra mô hình. Bạn có thể hình dung như việc xào một bộ bài mới trước khi chia bài.

Trước tiên, đặt seed ngẫu nhiên để công việc của bạn có thể tái lập và mỗi lần chạy script đều cho ra cùng một phép chia ngẫu nhiên:

set.seed(42)

Tiếp theo, dùng hàm sample() để xáo trộn các chỉ số hàng của bộ dữ liệu diamonds. Sau đó bạn có thể dùng các chỉ số này để sắp xếp lại bộ dữ liệu.

rows <- sample(nrow(diamonds))

Cuối cùng, dùng vector ngẫu nhiên này để sắp xếp lại bộ dữ liệu diamonds:

diamonds <- diamonds[rows, ]

Hướng dẫn

100 XP
  • Đặt seed ngẫu nhiên là 42.
  • Tạo một vector các chỉ số hàng tên là rows.
  • Xáo trộn ngẫu nhiên data frame diamonds, gán vào shuffled_diamonds.