MulaiMulai sekarang secara gratis

Menyusun sebuah vektor

Langkah terakhir dalam Pipeline adalah menggabungkan semua kolom yang memuat fitur menjadi satu kolom. Ini harus dilakukan sebelum pemodelan karena setiap rutin pemodelan Spark mengharapkan data dalam bentuk tersebut. Anda dapat melakukannya dengan menyimpan setiap nilai dari sebuah kolom sebagai entri dalam sebuah vektor. Kemudian, dari sudut pandang model, setiap observasi adalah sebuah vektor yang berisi semua informasinya beserta label yang menunjukkan nilai yang sesuai dengan observasi tersebut.

Karena itu, submodul pyspark.ml.feature memiliki kelas bernama VectorAssembler. Transformer ini mengambil semua kolom yang Anda tentukan dan menggabungkannya menjadi kolom vektor baru.

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Petunjuk latihan

  • Buat VectorAssembler dengan memanggil VectorAssembler() menggunakan inputCols berupa daftar nama kolom dan outputCol bernama "features".
    • Daftar kolomnya adalah ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)
Edit dan Jalankan Kode