Menggabungkan kolom
Tahap terakhir dari penyiapan data adalah mengonsolidasikan semua kolom prediktor menjadi satu kolom.
Versi terbaru dari data flights, yang sudah mencakup semua perubahan dari beberapa latihan sebelumnya, memiliki kolom prediktor berikut:
mon,dom, dandowcarrier_idx(nilai terindeks daricarrier)org_idx(nilai terindeks dariorg)kmdepartduration
Catatan: Argumen truncate=False pada metode show() mencegah data terpotong pada keluaran.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Impor kelas yang akan menyusun kolom prediktor.
- Buat objek assembler yang memungkinkan Anda menggabungkan kolom prediktor menjadi satu kolom.
- Gunakan assembler untuk menghasilkan kolom terintegrasi yang baru.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)