Veri çerçevesini rastgele sırala

Bir veri kümesini train/test olarak ayırmanın bir yolu, veri kümesini rastgele sıralayıp sonra iki kümeye bölmektir. Bu, hem eğitim kümesinin hem de test kümesinin rastgele örnekler olmasını sağlar ve veri kümesinin sıralamasındaki önyargıların (örneğin başlangıçta fiyata veya boyuta göre sıralanmışsa) modellerini eğitmek ve test etmek için aldığımız örneklerde korunmamasını garanti eder. Bunu, elleri dağıtmadan önce yepyeni bir deste iskambil kâğıdını karıştırmak gibi düşünebilirsin.

Önce, çalışmanın yeniden üretilebilir olması ve betiğini her çalıştırdığında aynı rastgele bölümü elde etmen için bir rastgele tohum belirlersin:

set.seed(42)

Sonra, diamonds veri kümesinin satır indislerini karıştırmak için sample() fonksiyonunu kullanırsın. Bu indisleri daha sonra veri kümesini yeniden sıralamak için kullanabilirsin.

rows <- sample(nrow(diamonds))

Son olarak, bu rastgele vektörü kullanarak diamonds veri kümesini yeniden sıralayabilirsin:

diamonds <- diamonds[rows, ]

Bu egzersiz, kursun bir parçasıdır

R ile caret kullanarak Machine Learning

Kursa Göz Atın

Egzersiz talimatları

Rastgele tohumu 42 olarak ayarla.
rows adlı bir satır indisi vektörü oluştur.
diamonds veri çerçevesini rastgele yeniden sırala ve shuffled_diamonds olarak ata.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Set seed


# Shuffle row indices: rows


# Randomly order data

Kodu Düzenle ve Çalıştır