Uçuş süresi model hattını çapraz doğrulama
Az önce kurduğun çapraz doğrulamalı model basitti; yalnızca km kullanarak duration tahmin edildi.
Uçuş süresi için bir diğer önemli öngördürücü kalkış havaalanıdır. Yoğun havaalanlarında uçağın havalanması genelde daha uzun sürer. Bu öngördürücüyü eklemek modeli iyileştiriyor mu, görelim!
Bu egzersizde modele org alanını ekleyeceksin. Ancak org kategorik olduğundan, eklemeden önce ekstra adımlar gerekiyor: önce indekslenmeli, sonra one-hot kodlanmalı ve ardından km ile birlikte birleştirilip regresyon modelinde kullanılmalı. Bu işlemleri bir pipeline içinde toplayacağız.
Aşağıdaki nesneler zaten oluşturuldu:
params— boş bir parametre ızgarasıevaluator— bir regresyon değerlendiricisiregression—labelCol='duration'olan birLinearRegressionnesnesi.
StringIndexer, OneHotEncoder, VectorAssembler ve CrossValidator sınıfları içe aktarılmış durumda.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Bir string indexer oluştur. Girdi ve çıktı alanlarını
orgveorg_idxolarak belirt. - Bir one-hot encoder oluştur. Çıktı alanının adı
org_dummyolsun. kmveorg_dummyalanlarınıfeaturesadlı tek bir alanda birleştir.- Şu işlemleri kullanan bir pipeline oluştur: string indexer, one-hot encoder, assembler ve linear regression. Bunu kullanarak bir cross-validator oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create an indexer for the org field
indexer = ____(____, ____)
# Create an one-hot encoder for the indexed org field
onehot = ____(____, ____)
# Assemble the km and one-hot encoded fields
assembler = ____(____, ____)
# Create a pipeline and cross-validator.
pipeline = ____(stages=[____, ____, ____, ____])
cv = ____(estimator=____,
estimatorParamMaps=____,
evaluator=____)