Uçuş süresi modeli: Daha fazla özellik!
Modelimize daha fazla özellik ekleyelim. Bu her zaman daha iyi bir model anlamına gelmez. Bazı özellikler modeli iyileştirebilirken bazıları daha kötü hale getirebilir.
Daha fazla özellik, modeli her zaman daha karmaşık ve yorumlaması zor yapar.
Bir sonraki modelde şu özellikleri kullanacaksın:
kmorg(kalkış havaalanı, one-hot encoded, 8 seviye)depart(kalkış zamanı, 3 saatlik aralıklara ayrılmış, one-hot encoded, 8 seviye)dow(haftanın günü, one-hot encoded, 7 seviye) vemon(ay, one-hot encoded, 12 seviye).
Bunlar features sütununda birleştirildi; bu, 32 sütunun seyrek gösterimidir (one-hot encoding, seviye sayısından bir eksik sayıda sütun üretir, unutma).
Veriler flights olarak mevcut ve rastgele olarak flights_train ve flights_test şeklinde ayrıldı.
Bu egzersiz, uçuş verilerinin küçük bir alt kümesine dayanmaktadır.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Eğitim verilerine bir lineer regresyon modeli uydur.
- Test verileri için tahminler üret.
- Test verileri üzerinde RMSE hesapla.
- Model katsayılarına bak. Sıfır olan var mı?
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____
# Fit linear regression model to training data
regression = ____(____).____(____)
# Make predictions on testing data
predictions = regression.____(____)
# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Look at the model coefficients
coeffs = regression.____
print(coeffs)