Eğitim/test ayrımı
Bir Machine Learning modelini nesnel biçimde değerlendirmek için onu bağımsız bir veri kümesi üzerinde test edebilmen gerekir. Modeli eğitmek için kullandığın verileri testte kullanamazsın: elbette model o verilerde (görece) iyi performans gösterecektir!
Verileri iki bileşene böleceksin:
- eğitim verileri (modeli eğitmek için) ve
- test verileri (modeli test etmek için).
Not: Buradan sonra, egzersizlerin daha hızlı çalışması için uçuş verilerinin daha küçük bir alt kümesi ile çalışacaksın.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
flightsverilerini 80:20 oranıyla rastgele iki kümeye ayır. Tekrarlanabilirlik için bölme işleminde rastgele sayı tohumu olarak 43 kullan.- Eğitim verilerinin, orijinal verilerin yaklaşık %80'ini içerdiğini kontrol et.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)
# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)