BaşlayınÜcretsiz Başlayın

Uçuş süresi model hattını çapraz doğrulama

Az önce kurduğun çapraz doğrulamalı model basitti; yalnızca km kullanarak duration tahmin edildi.

Uçuş süresi için bir diğer önemli öngördürücü kalkış havaalanıdır. Yoğun havaalanlarında uçağın havalanması genelde daha uzun sürer. Bu öngördürücüyü eklemek modeli iyileştiriyor mu, görelim!

Bu egzersizde modele org alanını ekleyeceksin. Ancak org kategorik olduğundan, eklemeden önce ekstra adımlar gerekiyor: önce indekslenmeli, sonra one-hot kodlanmalı ve ardından km ile birlikte birleştirilip regresyon modelinde kullanılmalı. Bu işlemleri bir pipeline içinde toplayacağız.

Aşağıdaki nesneler zaten oluşturuldu:

  • params — boş bir parametre ızgarası
  • evaluator — bir regresyon değerlendiricisi
  • regressionlabelCol='duration' olan bir LinearRegression nesnesi.

StringIndexer, OneHotEncoder, VectorAssembler ve CrossValidator sınıfları içe aktarılmış durumda.

Bu egzersiz

PySpark ile Machine Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Bir string indexer oluştur. Girdi ve çıktı alanlarını org ve org_idx olarak belirt.
  • Bir one-hot encoder oluştur. Çıktı alanının adı org_dummy olsun.
  • km ve org_dummy alanlarını features adlı tek bir alanda birleştir.
  • Şu işlemleri kullanan bir pipeline oluştur: string indexer, one-hot encoder, assembler ve linear regression. Bunu kullanarak bir cross-validator oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create an indexer for the org field
indexer = ____(____, ____)

# Create an one-hot encoder for the indexed org field
onehot = ____(____, ____)

# Assemble the km and one-hot encoded fields
assembler = ____(____, ____)

# Create a pipeline and cross-validator.
pipeline = ____(stages=[____, ____, ____, ____])
cv = ____(estimator=____,
          estimatorParamMaps=____,
          evaluator=____)
Kodu Düzenle ve Çalıştır