Medyan değer atamasını uygula
Bu bölümde, Wisconsin Meme Kanseri veri kümesinin bir sürümünü kullanacaksın. Bu veri kümesi klasik bir ikili sınıflandırma problemi sunar: örneklerin %50’si iyi huylu, %50’si kötü huyludur ve amaç hangisinin hangisi olduğunu belirlemektir.
Bu veri kümesi ilginçtir çünkü birçok öngestirici değişkende eksik değerler vardır ve veri kümesindeki satırların çoğunda en az bir eksik değer bulunur. Bu durum bir modelleme zorluğu yaratır; çünkü çoğu Machine Learning algoritması eksik değerleri doğrudan işleyemez. Örneğin, ilk aklına gelen bu verilere lojistik regresyon modeli uydurmak olabilir; ancak bunu yapmadan önce NA değerlerini nasıl ele alacağına dair bir strateji belirlemen gerekir.
Neyse ki, caret içindeki train() fonksiyonunda preProcess adlı bir argüman vardır; bu da eksik değerleri doldurmak için medyan atamasını kullanabileceğini belirtmene olanak tanır. Önceki bölümlerde y ~ . gibi formüllerle train() fonksiyonunu kullanarak modeller oluşturmuştun. Alternatif bir yol da train() fonksiyonuna x ve y argümanlarını vermektir; burada x, satırlarda örneklerin, sütunlarda özelliklerin bulunduğu bir nesnedir ve y, sonuçları içeren sayısal veya faktör bir vektördür. Başka bir deyişle, x, örneğin lm() çağrısındaki data argümanına vereceğin tüm veri kümesini içeren ama yanıt değişkeni sütununu hariç tutan bir matris veya veri çerçevesidir; y ise yalnızca yanıt değişkeni sütununu içeren bir vektördür.
Bu egzersizde, train() fonksiyonuna verilecek x argümanı çalışma alanında breast_cancer_x ve y ise breast_cancer_y olarak yüklüdür.
Bu egzersiz
R ile caret kullanarak Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Meme kanseri veri kümesine
glmmodeli uydurmak içintrain()fonksiyonunu kullan ve modelimedian_modelolarak adlandır. Eksik değerleri ele almak içinpreProcess = "medianImpute"kullan. median_modelçıktısını konsola yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Apply median imputation: median_model
median_model <- train(
x = ___,
y = ___,
method = ___,
trControl = myControl,
preProcess = ___
)
# Print median_model to console