Eğitim ve test veri kümeleri oluşturma
Bir veri kümesini eğitim ve test setlerine ayırmak, bir sınıflandırma modeli kurup test ederken önemli bir adımdır. Eğitim seti modeli kurmak için, test seti ise tahmin doğruluğunu değerlendirmek için kullanılır.
Bu egzersizde, önceki bölümde oluşturduğun veri kümesini eğitim ve test setlerine ayıracaksın. Veri kümesi df veri çerçevesine yüklendi ve tekrar üretilebilirlik için bir tohum değeri (seed) zaten ayarlandı. Önceki videoda, eğitim setinin uzunluğu için üst sınırı bazı kullanışlı fonksiyonlarla belirlemiştik — şimdi bunları uygulama sırası sende!
Bu egzersiz, kursun bir parçasıdır
R ile Support Vector Machines
Egzersiz talimatları
- Eğitim setinde yer alacak satır sayısının üst sınırını belirle ve
sample_sizeiçinde sakla. - 80/20 oranına göre rastgele atanan eğitim setini tutacak
trainvektörünü oluştur. trainvektöründeki satırlarıtrainsetveri çerçevesine, kalanları isetestsetveri çerçevesine ata.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Set the upper bound for the length of the training set
sample_size <- ___(___ * nrow(df))
# Assign rows to training set randomly
train <- ___(seq_len(nrow(df)), size = ___)
# Yield training and test sets
trainset <- df[___, ]
testset <- df[-___, ]