Menyusun sebuah vektor
Langkah terakhir dalam Pipeline adalah menggabungkan semua kolom yang memuat fitur menjadi satu kolom. Ini harus dilakukan sebelum pemodelan karena setiap rutin pemodelan Spark mengharapkan data dalam bentuk tersebut. Anda dapat melakukannya dengan menyimpan setiap nilai dari sebuah kolom sebagai entri dalam sebuah vektor. Kemudian, dari sudut pandang model, setiap observasi adalah sebuah vektor yang berisi semua informasinya beserta label yang menunjukkan nilai yang sesuai dengan observasi tersebut.
Karena itu, submodul pyspark.ml.feature memiliki kelas bernama VectorAssembler. Transformer ini mengambil semua kolom yang Anda tentukan dan menggabungkannya menjadi kolom vektor baru.
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Petunjuk latihan
- Buat
VectorAssemblerdengan memanggilVectorAssembler()menggunakaninputColsberupa daftar nama kolom danoutputColbernama"features".- Daftar kolomnya adalah
["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].
- Daftar kolomnya adalah
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)