Machine Learning Pipelines
Dalam dua bab berikutnya, Anda akan melalui setiap tahap machine learning pipeline, mulai dari pengambilan data hingga evaluasi model. Mari kita mulai!
Inti dari modul pyspark.ml adalah kelas Transformer dan Estimator. Hampir semua kelas lain dalam modul berperilaku serupa dengan dua kelas dasar ini.
Kelas Transformer memiliki metode .transform() yang menerima sebuah DataFrame dan mengembalikan DataFrame baru; biasanya DataFrame asal dengan sebuah kolom baru ditambahkan. Misalnya, Anda dapat menggunakan kelas Bucketizer untuk membuat interval diskret dari fitur kontinu atau kelas PCA untuk mengurangi dimensi himpunan data Anda menggunakan principal component analysis.
Semua kelas Estimator mengimplementasikan metode .fit(). Metode ini juga menerima sebuah DataFrame, tetapi alih-alih mengembalikan DataFrame lain, metode ini mengembalikan sebuah objek model. Ini bisa berupa StringIndexerModel untuk menyertakan data kategorikal yang disimpan sebagai string ke dalam model Anda, atau RandomForestModel yang menggunakan algoritme random forest untuk klasifikasi atau regresi.
Manakah dari pernyataan berikut yang tidak benar tentang machine learning di Spark?
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Latihan interaktif praktis
Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.
Mulai berolahraga