Model durasi penerbangan: Tahap pipeline
Anda akan membuat tahap-tahap untuk pipeline model durasi penerbangan. Anda akan menggunakannya pada latihan berikutnya untuk membangun pipeline dan membuat model regresi.
Kelas StringIndexer, OneHotEncoder, VectorAssembler, dan LinearRegression sudah diimpor.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Buat sebuah indexer untuk mengonversi kolom 'org' menjadi kolom terindeks bernama 'org_idx'.
- Buat sebuah one-hot encoder untuk mengonversi kolom 'org_idx' dan 'dow' menjadi kolom variabel dummy bernama 'org_dummy' dan 'dow_dummy'.
- Buat sebuah assembler yang akan menggabungkan kolom 'km' dengan dua kolom variabel dummy tersebut. Kolom keluarannya harus bernama 'features'.
- Buat sebuah objek regresi linear untuk memprediksi durasi penerbangan.
Anda mungkin perlu meninjau kembali slide dari pelajaran di panel Slides di sebelah IPython Shell.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Convert categorical strings to index values
indexer = ____(____)
# One-hot encode index values
onehot = ____(
inputCols=____,
outputCols=____
)
# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)
# A linear regression object
regression = ____(labelCol=____)