Test vs. Train
Verini temizleyip modellemeye hazır hale getirdikten sonra, en önemli adımlardan biri veriyi bir test seti ve bir train seti olarak ayırmaktır. Bundan sonra, iyi bir modelin olduğuna karar verene kadar test verine dokunma! Modeller kurarken ve hipotezler oluştururken, performansları hakkında fikir edinmek için bunları eğitim verin üzerinde test edebilirsin.
Favori modelini belirledikten sonra, test setindeki yeni veriyi ne kadar iyi tahmin ettiğine bakabilirsin. Daha önce hiç görülmemiş bu veri, gerçek dünyada yeni veriyi tahmin ederken ya da sınıflandırırken modelinin performansı hakkında çok daha gerçekçi bir fikir verir.
Spark'ta veriyi tüm dönüşümlerden sonra ayırdığından emin olmak önemlidir. Bunun nedeni, StringIndexer gibi işlemlerin, aynı dizi metin verilse bile her zaman aynı indeksleri üretmemesidir.
Model değerlendirmesinde test seti kullanmak neden önemlidir?
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırUygulamalı interaktif egzersiz
İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün
Egzersizi başlat