Mulai sekarangMulai gratis

Model durasi penerbangan: Tahap pipeline

Anda akan membuat tahap-tahap untuk pipeline model durasi penerbangan. Anda akan menggunakannya pada latihan berikutnya untuk membangun pipeline dan membuat model regresi.

Kelas StringIndexer, OneHotEncoder, VectorAssembler, dan LinearRegression sudah diimpor.

Latihan ini merupakan bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Instruksi latihan

  • Buat sebuah indexer untuk mengonversi kolom 'org' menjadi kolom terindeks bernama 'org_idx'.
  • Buat sebuah one-hot encoder untuk mengonversi kolom 'org_idx' dan 'dow' menjadi kolom variabel dummy bernama 'org_dummy' dan 'dow_dummy'.
  • Buat sebuah assembler yang akan menggabungkan kolom 'km' dengan dua kolom variabel dummy tersebut. Kolom keluarannya harus bernama 'features'.
  • Buat sebuah objek regresi linear untuk memprediksi durasi penerbangan.

Anda mungkin perlu meninjau kembali slide dari pelajaran di panel Slides di sebelah IPython Shell.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Edit dan Jalankan Kode