BaşlayınÜcretsiz Başlayın

Medyan değer atamasını uygula

Bu bölümde, Wisconsin Meme Kanseri veri kümesinin bir sürümünü kullanacaksın. Bu veri kümesi klasik bir ikili sınıflandırma problemi sunar: örneklerin %50’si iyi huylu, %50’si kötü huyludur ve amaç hangisinin hangisi olduğunu belirlemektir.

Bu veri kümesi ilginçtir çünkü birçok öngestirici değişkende eksik değerler vardır ve veri kümesindeki satırların çoğunda en az bir eksik değer bulunur. Bu durum bir modelleme zorluğu yaratır; çünkü çoğu Machine Learning algoritması eksik değerleri doğrudan işleyemez. Örneğin, ilk aklına gelen bu verilere lojistik regresyon modeli uydurmak olabilir; ancak bunu yapmadan önce NA değerlerini nasıl ele alacağına dair bir strateji belirlemen gerekir.

Neyse ki, caret içindeki train() fonksiyonunda preProcess adlı bir argüman vardır; bu da eksik değerleri doldurmak için medyan atamasını kullanabileceğini belirtmene olanak tanır. Önceki bölümlerde y ~ . gibi formüllerle train() fonksiyonunu kullanarak modeller oluşturmuştun. Alternatif bir yol da train() fonksiyonuna x ve y argümanlarını vermektir; burada x, satırlarda örneklerin, sütunlarda özelliklerin bulunduğu bir nesnedir ve y, sonuçları içeren sayısal veya faktör bir vektördür. Başka bir deyişle, x, örneğin lm() çağrısındaki data argümanına vereceğin tüm veri kümesini içeren ama yanıt değişkeni sütununu hariç tutan bir matris veya veri çerçevesidir; y ise yalnızca yanıt değişkeni sütununu içeren bir vektördür.

Bu egzersizde, train() fonksiyonuna verilecek x argümanı çalışma alanında breast_cancer_x ve y ise breast_cancer_y olarak yüklüdür.

Bu egzersiz

R ile caret kullanarak Machine Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Meme kanseri veri kümesine glm modeli uydurmak için train() fonksiyonunu kullan ve modeli median_model olarak adlandır. Eksik değerleri ele almak için preProcess = "medianImpute" kullan.
  • median_model çıktısını konsola yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Apply median imputation: median_model
median_model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print median_model to console
Kodu Düzenle ve Çalıştır