Urutkan data frame secara acak
Salah satu cara untuk melakukan pembagian train/test pada sebuah himpunan data adalah dengan mengacak urutan data terlebih dahulu, lalu membaginya menjadi dua set. Ini memastikan bahwa train set dan test set sama-sama merupakan sampel acak dan bahwa bias apa pun dalam pengurutan himpunan data (misalnya jika awalnya diurutkan berdasarkan harga atau ukuran) tidak terbawa ke dalam sampel yang kita ambil untuk melatih dan menguji model Anda. Anggap saja ini seperti mengocok setumpuk kartu remi baru sebelum dibagikan.
Pertama, tetapkan random seed agar pekerjaan Anda dapat direproduksi dan Anda mendapatkan pembagian acak yang sama setiap kali menjalankan skrip:
set.seed(42)
Selanjutnya, gunakan fungsi sample() untuk mengacak indeks baris dari himpunan data diamonds. Anda dapat menggunakan indeks ini nanti untuk mengurutkan ulang himpunan data.
rows <- sample(nrow(diamonds))
Terakhir, Anda dapat menggunakan vektor acak ini untuk mengurutkan ulang himpunan data diamonds:
diamonds <- diamonds[rows, ]
Latihan ini merupakan bagian dari kursus
Machine Learning dengan caret di R
Instruksi latihan
- Tetapkan random seed ke 42.
- Buat sebuah vektor indeks baris bernama
rows. - Urutkan ulang data frame
diamondssecara acak, dan simpan sebagaishuffled_diamonds.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Set seed
# Shuffle row indices: rows
# Randomly order data