Eğitim ve test veri kümeleri oluşturma
Bir veri kümesini eğitim ve test setlerine ayırmak, bir sınıflandırma modeli kurup test ederken önemli bir adımdır. Eğitim seti modeli kurmak için, test seti ise tahmin doğruluğunu değerlendirmek için kullanılır.
Bu egzersizde, önceki bölümde oluşturduğun veri kümesini eğitim ve test setlerine ayıracaksın. Veri kümesi df veri çerçevesine yüklendi ve tekrar üretilebilirlik için bir tohum değeri (seed) zaten ayarlandı. Önceki videoda, eğitim setinin uzunluğu için üst sınırı bazı kullanışlı fonksiyonlarla belirlemiştik — şimdi bunları uygulama sırası sende!
Bu egzersiz
R ile Support Vector Machines
kursunun bir parçasıdırEgzersiz talimatları
- Eğitim setinde yer alacak satır sayısının üst sınırını belirle ve
sample_sizeiçinde sakla. - 80/20 oranına göre rastgele atanan eğitim setini tutacak
trainvektörünü oluştur. trainvektöründeki satırlarıtrainsetveri çerçevesine, kalanları isetestsetveri çerçevesine ata.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Set the upper bound for the length of the training set
sample_size <- ___(___ * nrow(df))
# Assign rows to training set randomly
train <- ___(seq_len(nrow(df)), size = ___)
# Yield training and test sets
trainset <- df[___, ]
testset <- df[-___, ]