Uçuş süresi modeli: Pipeline aşamaları
Uçuş süresi modeli pipeline’ı için aşamaları oluşturacaksın. Bunları bir sonraki egzersizde bir pipeline kurmak ve bir regresyon modeli oluşturmak için kullanacaksın.
StringIndexer, OneHotEncoder, VectorAssembler ve LinearRegression sınıfları zaten içe aktarılmış durumda.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- 'org' sütununu 'org_idx' adlı indeksli bir sütuna dönüştürmek için bir indexer oluştur.
- 'org_idx' ve 'dow' sütunlarını 'org_dummy' ve 'dow_dummy' adlı kukla değişken sütunlarına dönüştürmek için bir one-hot encoder oluştur.
- 'km' sütununu bu iki kukla değişken sütunuyla birleştirecek bir assembler oluştur. Çıkış sütununun adı 'features' olmalı.
- Uçuş süresini tahmin etmek için bir lineer regresyon nesnesi oluştur.
İşine yararsa, IPython Shell yanındaki Slaytlar panelinden dersteki slaytlara tekrar göz atabilirsin.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Convert categorical strings to index values
indexer = ____(____)
# One-hot encode index values
onehot = ____(
inputCols=____,
outputCols=____
)
# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)
# A linear regression object
regression = ____(labelCol=____)