Mulai sekarangMulai gratis

Menggabungkan kolom

Tahap terakhir dari penyiapan data adalah mengonsolidasikan semua kolom prediktor menjadi satu kolom.

Versi terbaru dari data flights, yang sudah mencakup semua perubahan dari beberapa latihan sebelumnya, memiliki kolom prediktor berikut:

  • mon, dom, dan dow
  • carrier_idx (nilai terindeks dari carrier)
  • org_idx (nilai terindeks dari org)
  • km
  • depart
  • duration

Catatan: Argumen truncate=False pada metode show() mencegah data terpotong pada keluaran.

Latihan ini merupakan bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Instruksi latihan

  • Impor kelas yang akan menyusun kolom prediktor.
  • Buat objek assembler yang memungkinkan Anda menggabungkan kolom prediktor menjadi satu kolom.
  • Gunakan assembler untuk menghasilkan kolom terintegrasi yang baru.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Edit dan Jalankan Kode