MulaiMulai sekarang secara gratis

Model durasi penerbangan: Tahap pipeline

Anda akan membuat tahap-tahap untuk pipeline model durasi penerbangan. Anda akan menggunakannya pada latihan berikutnya untuk membangun pipeline dan membuat model regresi.

Kelas StringIndexer, OneHotEncoder, VectorAssembler, dan LinearRegression sudah diimpor.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat sebuah indexer untuk mengonversi kolom 'org' menjadi kolom terindeks bernama 'org_idx'.
  • Buat sebuah one-hot encoder untuk mengonversi kolom 'org_idx' dan 'dow' menjadi kolom variabel dummy bernama 'org_dummy' dan 'dow_dummy'.
  • Buat sebuah assembler yang akan menggabungkan kolom 'km' dengan dua kolom variabel dummy tersebut. Kolom keluarannya harus bernama 'features'.
  • Buat sebuah objek regresi linear untuk memprediksi durasi penerbangan.

Anda mungkin perlu meninjau kembali slide dari pelajaran di panel Slides di sebelah IPython Shell.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Edit dan Jalankan Kode