BaşlayınÜcretsiz Başlayın

Veri çerçevesini rastgele sırala

Bir veri kümesini train/test olarak ayırmanın bir yolu, veri kümesini rastgele sıralayıp sonra iki kümeye bölmektir. Bu, hem eğitim kümesinin hem de test kümesinin rastgele örnekler olmasını sağlar ve veri kümesinin sıralamasındaki önyargıların (örneğin başlangıçta fiyata veya boyuta göre sıralanmışsa) modellerini eğitmek ve test etmek için aldığımız örneklerde korunmamasını garanti eder. Bunu, elleri dağıtmadan önce yepyeni bir deste iskambil kâğıdını karıştırmak gibi düşünebilirsin.

Önce, çalışmanın yeniden üretilebilir olması ve betiğini her çalıştırdığında aynı rastgele bölümü elde etmen için bir rastgele tohum belirlersin:

set.seed(42)

Sonra, diamonds veri kümesinin satır indislerini karıştırmak için sample() fonksiyonunu kullanırsın. Bu indisleri daha sonra veri kümesini yeniden sıralamak için kullanabilirsin.

rows <- sample(nrow(diamonds))

Son olarak, bu rastgele vektörü kullanarak diamonds veri kümesini yeniden sıralayabilirsin:

diamonds <- diamonds[rows, ]

Bu egzersiz

R ile caret kullanarak Machine Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Rastgele tohumu 42 olarak ayarla.
  • rows adlı bir satır indisi vektörü oluştur.
  • diamonds veri çerçevesini rastgele yeniden sırala ve shuffled_diamonds olarak ata.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Set seed


# Shuffle row indices: rows


# Randomly order data
Kodu Düzenle ve Çalıştır