MulaiMulai sekarang secara gratis

Menggabungkan kolom

Tahap terakhir dari penyiapan data adalah mengonsolidasikan semua kolom prediktor menjadi satu kolom.

Versi terbaru dari data flights, yang sudah mencakup semua perubahan dari beberapa latihan sebelumnya, memiliki kolom prediktor berikut:

  • mon, dom, dan dow
  • carrier_idx (nilai terindeks dari carrier)
  • org_idx (nilai terindeks dari org)
  • km
  • depart
  • duration

Catatan: Argumen truncate=False pada metode show() mencegah data terpotong pada keluaran.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Impor kelas yang akan menyusun kolom prediktor.
  • Buat objek assembler yang memungkinkan Anda menggabungkan kolom prediktor menjadi satu kolom.
  • Gunakan assembler untuk menghasilkan kolom terintegrasi yang baru.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Edit dan Jalankan Kode