Bab ini memperkenalkan dunia Big Data yang menarik, serta berbagai konsep dan beragam kerangka kerja untuk memproses Big Data. Anda akan memahami mengapa Apache Spark dianggap sebagai kerangka kerja terbaik untuk Big Data.

Apa itu Big Data?

Tiga V pada Big Data

PySpark: Spark dengan Python

Memahami SparkContext

Penggunaan Interaktif PySpark

Memuat data di PySpark shell

Tinjauan pemrograman fungsional di Python

Penggunaan lambda() dengan map()

Penggunaan lambda() dengan filter()

Pengantar analisis Big Data dengan Spark

Abstraksi utama yang disediakan Spark adalah resilient distributed dataset (RDD), yang merupakan tipe data fundamental dan tulang punggung dari mesin ini. Bab ini memperkenalkan RDD dan menunjukkan cara membuat serta mengeksekusi RDD menggunakan Transformations dan Actions pada RDD.

Abstraksi Data dengan RDD

RDD dari Koleksi yang Diparalelkan

RDD dari Himpunan Data Eksternal

Partisi dalam data Anda

Transformasi dan Aksi RDD Dasar

Map dan Collect

Filter dan Hitung

Pair RDD di PySpark

ReduceBykey dan Collect

SortByKey dan Collect

Aksi RDD Lanjutan

CountingBykeys

Buat RDD dasar dan transformasikan

Hapus stop words dan lakukan reduksi pada himpunan data

Cetak frekuensi kata

Pemrograman di PySpark RDD

Pada bab ini, Anda akan mempelajari Spark SQL, yaitu modul Spark untuk pemrosesan data terstruktur. Modul ini menyediakan abstraksi pemrograman bernama DataFrame dan juga dapat bertindak sebagai mesin kueri SQL terdistribusi. Bab ini menunjukkan bagaimana Spark SQL memungkinkan Anda menggunakan DataFrame di Python.

Abstraksi Data dengan DataFrame

RDD ke DataFrame

Memuat CSV ke dalam DataFrame

Melakukan Operasi pada DataFrame di PySpark

Memeriksa data dalam PySpark DataFrame

Subsetting dan pembersihan PySpark DataFrame

Menyaring DataFrame Anda

Berinteraksi dengan DataFrame menggunakan PySpark SQL

Menjalankan Kueri SQL Secara Terprogram

Kueri SQL untuk memfilter Tabel

Visualisasi Data di PySpark menggunakan DataFrame

Visualisasi PySpark DataFrame

Bagian 1: Membuat DataFrame dari berkas CSV

Bagian 2: Kueri SQL pada DataFrame

Bagian 3: Visualisasi data

PySpark SQL & DataFrame

PySpark MLlib adalah pustaka Machine Learning berskala besar milik Apache Spark dalam Python yang terdiri atas algoritme pembelajaran umum dan utilitasnya. Sepanjang bab terakhir ini, Anda akan mempelajari algoritme Machine Learning penting. Anda akan membangun mesin rekomendasi film dan penyaring spam, serta menggunakan pengelompokan k-means.

Tinjauan PySpark MLlib

Pustaka ML di PySpark

Algoritme PySpark MLlib

Collaborative filtering

Memuat himpunan data MovieLens ke dalam RDD

Pelatihan model dan prediksi

Evaluasi model menggunakan MSE

Klasifikasi

Memuat data spam dan non-spam

Feature hashing dan LabelPoint

Pelatihan model Logistic Regression

Pengelompokan

Memuat dan mengurai data 5000 points

Pelatihan K-means

Memvisualisasikan klaster

Selamat!

Machine Learning dengan PySpark MLlib

Complete Shakespeare

Movie ratings

5000 points

FIFA 2018

People

Spam

Selama beberapa tahun terakhir, Big Data banyak diperbincangkan dan kini telah menjadi arus utama bagi banyak perusahaan. Namun, apa sebenarnya Big Data itu? Kursus ini membahas dasar-dasar Big Data melalui PySpark. Spark adalah kerangka kerja komputasi klaster yang "secepat kilat" untuk Big Data. Spark menyediakan mesin platform pemrosesan data umum dan memungkinkan Anda menjalankan program hingga 100x lebih cepat di memori, atau 10x lebih cepat di disk, dibandingkan Hadoop. Anda akan menggunakan PySpark, paket Python untuk pemrograman Spark beserta pustaka tingkat tingginya yang andal seperti SparkSQL, MLlib (untuk Machine Learning), dan lain-lain. Anda akan mengeksplorasi karya William Shakespeare, menganalisis data Fifa 2018, dan melakukan pengelompokan pada himpunan data genomik. Di akhir kursus, Anda akan memiliki pemahaman mendalam tentang PySpark dan penerapannya untuk analisis Big Data secara umum.

Introduction to Python

Pelajari analisis Big Data dengan PySpark, SparkSQL, dan MLlib untuk pemrograman Spark.

Selamat!

Create Your Free Account