Test-train ayrımı
Düzenli bir Machine Learning iş akışında, verinin bir kısmını (test verisi) karar verme sürecinden tamamen uzak tutmak çok önemlidir. Bu sayede, modelin son hâliyle performansını bağımsız olarak değerlendirebilirsin. Kalan veri, yani eğitim verisi, modeli kurmak ve en iyi modeli seçmek için kullanılır.
Bu egzersizde, rsample paketini kullanarak gapminder verini ilk eğitim-test ayrımı için böleceksin.
Not: Bu işlem veriyi rastgele böldüğü için, bölmeden önce bir tohum (seed) belirlemek iyi bir pratiktir.
Bu egzersiz
Tidyverse ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Verini
initial_split()fonksiyonunu kullanarak %75 eğitim ve %25 test olacak şekilde böl vegap_splitolarak ata. training()fonksiyonunu kullanarakgap_splitiçinden eğitim veri çerçevesini çıkar.testing()fonksiyonunu kullanarakgap_splitiçinden test veri çerçevesini çıkar.training_datavetesting_dataüzerindedim()fonksiyonunu kullanarak yeni veri çerçevelerinin boyutlarının beklediğin gibi olduğunu doğrula.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
set.seed(42)
# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)
# Extract the training data frame
training_data <- ___
# Extract the testing data frame
testing_data <- ___
# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)