Spark adalah kerangka kerja untuk bekerja dengan Big Data. Pada bab ini Anda akan mempelajari latar belakang Spark dan Machine Learning. Anda kemudian akan mengetahui cara terhubung ke Spark menggunakan Python dan memuat data CSV.

Machine Learning & Spark

Karakteristik Spark

Komponen dalam Kluster Spark

Menyambungkan ke Spark

Lokasi Spark master

Membuat SparkSession

Memuat Data

Memuat data penerbangan

Memuat data spam SMS

Pengantar

Sekarang setelah Anda memahami cara memasukkan data ke Spark, Anda akan beralih ke pembangunan dua jenis model klasifikasi: Decision Tree dan Logistic Regression. Anda juga akan mempelajari beberapa pendekatan untuk menyiapkan data.

Persiapan Data

Menghapus kolom dan baris

Manipulasi kolom

Kolom kategorikal

Menggabungkan kolom

Pohon Keputusan

Pembagian train/test

Membangun Decision Tree

Evaluasi Decision Tree

Logistic Regression

Membangun model Logistic Regression

Evaluasi model Logistic Regression

Mengubah Teks menjadi Tabel

Tanda baca, angka, dan token

Stopwords dan hashing

Melatih pengklasifikasi spam

Klasifikasi

Selanjutnya Anda akan belajar membuat model Linear Regression. Anda juga akan mempelajari cara memperkaya data dengan merekayasa prediktor baru serta pendekatan andal untuk memilih hanya prediktor yang paling relevan.

One-Hot Encoding

Menyandikan asal penerbangan

Meng-encode ukuran kaus

Regresi

Model durasi penerbangan: Hanya jarak

Menafsirkan koefisien

Model durasi penerbangan: Menambahkan bandara asal

Bucketing & Rekayasa

Pengelompokan waktu keberangkatan

Model durasi penerbangan: Menambahkan waktu keberangkatan

Regularisasi

Model durasi penerbangan: Lebih banyak fitur!

Model durasi penerbangan: Regularization!

Terakhir, Anda akan belajar membuat model menjadi lebih efisien. Anda akan mengetahui cara menggunakan pipeline untuk membuat kode lebih jelas dan mudah dipelihara. Lalu Anda akan menggunakan cross-validation untuk menguji model dengan lebih baik dan memilih parameter model yang tepat. Terakhir Anda akan mencoba dua jenis model ensemble.

Pipeline

Model durasi penerbangan: Tahap pipeline

Model durasi penerbangan: Model pipeline

Pipeline spam SMS

Cross-Validation

Melakukan cross-validation pada model durasi penerbangan sederhana

Cross-validasi pipeline model durasi penerbangan

Pencarian Grid

Mengoptimalkan regresi linear pada flights

Membedah model durasi penerbangan terbaik

Optimasi spam SMS

Berapa banyak model untuk grid search?

Ensemble

Penerbangan terlambat dengan Gradient-Boosted Trees

Penerbangan tertunda dengan Random Forest

Mengevaluasi Random Forest

Pemikiran penutup

Ensemble & Pipeline

Flights

Spark adalah alat serbaguna yang kuat untuk bekerja dengan Big Data. Spark secara transparan menangani distribusi tugas komputasi di seluruh kluster. Artinya, operasi menjadi cepat, dan Anda dapat berfokus pada analisis tanpa khawatir pada detail teknis. Dalam kursus ini Anda akan mempelajari cara memasukkan data ke Spark, lalu mendalami tiga algoritma Machine Learning dasar di Spark: Linear Regression, Logistic Regression/Klasifikasi, dan pembuatan pipeline. Sepanjang materi Anda akan menganalisis himpunan data besar tentang keterlambatan penerbangan dan pesan teks spam. Dengan bekal ini, Anda siap memanfaatkan kekuatan Spark dan menerapkannya pada proyek Machine Learning Anda sendiri!

Supervised Learning with scikit-learn

Introduction to PySpark

Pelajari cara memprediksi data dengan Apache Spark menggunakan pohon keputusan, regresi, dan pipeline.

Pipeline

Create Your Free Account