Model durasi penerbangan: Tahap pipeline
Anda akan membuat tahap-tahap untuk pipeline model durasi penerbangan. Anda akan menggunakannya pada latihan berikutnya untuk membangun pipeline dan membuat model regresi.
Kelas StringIndexer, OneHotEncoder, VectorAssembler, dan LinearRegression sudah diimpor.
Latihan ini merupakan bagian dari kursus
Machine Learning dengan PySpark
Instruksi latihan
- Buat sebuah indexer untuk mengonversi kolom 'org' menjadi kolom terindeks bernama 'org_idx'.
- Buat sebuah one-hot encoder untuk mengonversi kolom 'org_idx' dan 'dow' menjadi kolom variabel dummy bernama 'org_dummy' dan 'dow_dummy'.
- Buat sebuah assembler yang akan menggabungkan kolom 'km' dengan dua kolom variabel dummy tersebut. Kolom keluarannya harus bernama 'features'.
- Buat sebuah objek regresi linear untuk memprediksi durasi penerbangan.
Anda mungkin perlu meninjau kembali slide dari pelajaran di panel Slides di sebelah IPython Shell.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Convert categorical strings to index values
indexer = ____(____)
# One-hot encode index values
onehot = ____(
inputCols=____,
outputCols=____
)
# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)
# A linear regression object
regression = ____(labelCol=____)