Çapraz doğrulama
Sıradaki birkaç egzersizde, lojistik regresyon modelini k-katlı çapraz doğrulama yöntemiyle ayarlayacaksın. Bu, modelin görülmemiş verideki (örneğin test DataFrame'indeki gibi) performansını kestirmeye yarayan bir yöntemdir.
Yöntem, eğitim verisini birkaç farklı bölüme ayırarak çalışır. Tam sayı sana kalmış olsa da, bu derste PySpark'ın varsayılan değeri olan üçü kullanacaksın. Veri bölündükten sonra bölümlerden biri bir kenara ayrılır ve model diğer bölümlere uydurulur. Ardından hata, ayrılan bölüm üzerinde ölçülür. Bu işlem her bölüm için tekrarlanır; böylece her veri bloğu tam olarak bir kez ayrılıp test kümesi olarak kullanılmış olur. Sonra her bölümdeki hata ortalaması alınır. Buna modelin çapraz doğrulama hatası denir ve ayrılan verideki gerçek hatanın iyi bir kestirimidir.
İki hiperparametre olan elasticNetParam ve regParam için olası değer çiftlerinden bir ızgara (grid) oluşturarak, çapraz doğrulama hatasını kullanıp tüm farklı modelleri karşılaştıracak ve en iyisini seçeceksin!
Çapraz doğrulama sana neyi kestirme olanağı sağlar?
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırUygulamalı interaktif egzersiz
İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün
Egzersizi başlat