or
Latihan ini merupakan bagian dari kursus
Spark adalah kerangka kerja untuk bekerja dengan Big Data. Pada bab ini Anda akan mempelajari latar belakang Spark dan Machine Learning. Anda kemudian akan mengetahui cara terhubung ke Spark menggunakan Python dan memuat data CSV.
Sekarang setelah Anda memahami cara memasukkan data ke Spark, Anda akan beralih ke pembangunan dua jenis model klasifikasi: Decision Tree dan Logistic Regression. Anda juga akan mempelajari beberapa pendekatan untuk menyiapkan data.
Selanjutnya Anda akan belajar membuat model Linear Regression. Anda juga akan mempelajari cara memperkaya data dengan merekayasa prediktor baru serta pendekatan andal untuk memilih hanya prediktor yang paling relevan.
Terakhir, Anda akan belajar membuat model menjadi lebih efisien. Anda akan mengetahui cara menggunakan pipeline untuk membuat kode lebih jelas dan mudah dipelihara. Lalu Anda akan menggunakan cross-validation untuk menguji model dengan lebih baik dan memilih parameter model yang tepat. Terakhir Anda akan mencoba dua jenis model ensemble.
Latihan Saat Ini