BaşlayınÜcretsiz Başlayın

Eğitim/test ayrımı

Bir Machine Learning modelini nesnel biçimde değerlendirmek için onu bağımsız bir veri kümesi üzerinde test edebilmen gerekir. Modeli eğitmek için kullandığın verileri testte kullanamazsın: elbette model o verilerde (görece) iyi performans gösterecektir!

Verileri iki bileşene böleceksin:

  • eğitim verileri (modeli eğitmek için) ve
  • test verileri (modeli test etmek için).

Not: Buradan sonra, egzersizlerin daha hızlı çalışması için uçuş verilerinin daha küçük bir alt kümesi ile çalışacaksın.

Bu egzersiz

PySpark ile Machine Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • flights verilerini 80:20 oranıyla rastgele iki kümeye ayır. Tekrarlanabilirlik için bölme işleminde rastgele sayı tohumu olarak 43 kullan.
  • Eğitim verilerinin, orijinal verilerin yaklaşık %80'ini içerdiğini kontrol et.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)
Kodu Düzenle ve Çalıştır