MulaiMulai sekarang secara gratis

Urutkan data frame secara acak

Salah satu cara untuk melakukan pembagian train/test pada sebuah himpunan data adalah dengan mengacak urutan data terlebih dahulu, lalu membaginya menjadi dua set. Ini memastikan bahwa train set dan test set sama-sama merupakan sampel acak dan bahwa bias apa pun dalam pengurutan himpunan data (misalnya jika awalnya diurutkan berdasarkan harga atau ukuran) tidak terbawa ke dalam sampel yang kita ambil untuk melatih dan menguji model Anda. Anggap saja ini seperti mengocok setumpuk kartu remi baru sebelum dibagikan.

Pertama, tetapkan random seed agar pekerjaan Anda dapat direproduksi dan Anda mendapatkan pembagian acak yang sama setiap kali menjalankan skrip:

set.seed(42)

Selanjutnya, gunakan fungsi sample() untuk mengacak indeks baris dari himpunan data diamonds. Anda dapat menggunakan indeks ini nanti untuk mengurutkan ulang himpunan data.

rows <- sample(nrow(diamonds))

Terakhir, Anda dapat menggunakan vektor acak ini untuk mengurutkan ulang himpunan data diamonds:

diamonds <- diamonds[rows, ]

Latihan ini adalah bagian dari kursus

Machine Learning dengan caret di R

Lihat Kursus

Petunjuk latihan

  • Tetapkan random seed ke 42.
  • Buat sebuah vektor indeks baris bernama rows.
  • Urutkan ulang data frame diamonds secara acak, dan simpan sebagai shuffled_diamonds.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Set seed


# Shuffle row indices: rows


# Randomly order data
Edit dan Jalankan Kode