Veri çerçevesini rastgele sırala
Bir veri kümesini train/test olarak ayırmanın bir yolu, veri kümesini rastgele sıralayıp sonra iki kümeye bölmektir. Bu, hem eğitim kümesinin hem de test kümesinin rastgele örnekler olmasını sağlar ve veri kümesinin sıralamasındaki önyargıların (örneğin başlangıçta fiyata veya boyuta göre sıralanmışsa) modellerini eğitmek ve test etmek için aldığımız örneklerde korunmamasını garanti eder. Bunu, elleri dağıtmadan önce yepyeni bir deste iskambil kâğıdını karıştırmak gibi düşünebilirsin.
Önce, çalışmanın yeniden üretilebilir olması ve betiğini her çalıştırdığında aynı rastgele bölümü elde etmen için bir rastgele tohum belirlersin:
set.seed(42)
Sonra, diamonds veri kümesinin satır indislerini karıştırmak için sample() fonksiyonunu kullanırsın. Bu indisleri daha sonra veri kümesini yeniden sıralamak için kullanabilirsin.
rows <- sample(nrow(diamonds))
Son olarak, bu rastgele vektörü kullanarak diamonds veri kümesini yeniden sıralayabilirsin:
diamonds <- diamonds[rows, ]
Bu egzersiz
R ile caret kullanarak Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Rastgele tohumu 42 olarak ayarla.
rowsadlı bir satır indisi vektörü oluştur.diamondsveri çerçevesini rastgele yeniden sırala veshuffled_diamondsolarak ata.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Set seed
# Shuffle row indices: rows
# Randomly order data