Urutkan data frame secara acak
Salah satu cara untuk melakukan pembagian train/test pada sebuah himpunan data adalah dengan mengacak urutan data terlebih dahulu, lalu membaginya menjadi dua set. Ini memastikan bahwa train set dan test set sama-sama merupakan sampel acak dan bahwa bias apa pun dalam pengurutan himpunan data (misalnya jika awalnya diurutkan berdasarkan harga atau ukuran) tidak terbawa ke dalam sampel yang kita ambil untuk melatih dan menguji model Anda. Anggap saja ini seperti mengocok setumpuk kartu remi baru sebelum dibagikan.
Pertama, tetapkan random seed agar pekerjaan Anda dapat direproduksi dan Anda mendapatkan pembagian acak yang sama setiap kali menjalankan skrip:
set.seed(42)
Selanjutnya, gunakan fungsi sample() untuk mengacak indeks baris dari himpunan data diamonds. Anda dapat menggunakan indeks ini nanti untuk mengurutkan ulang himpunan data.
rows <- sample(nrow(diamonds))
Terakhir, Anda dapat menggunakan vektor acak ini untuk mengurutkan ulang himpunan data diamonds:
diamonds <- diamonds[rows, ]
Latihan ini adalah bagian dari kursus
Machine Learning dengan caret di R
Petunjuk latihan
- Tetapkan random seed ke 42.
- Buat sebuah vektor indeks baris bernama
rows. - Urutkan ulang data frame
diamondssecara acak, dan simpan sebagaishuffled_diamonds.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Set seed
# Shuffle row indices: rows
# Randomly order data