or
Latihan ini merupakan bagian dari kursus
Bab ini memperkenalkan dunia Big Data yang menarik, serta berbagai konsep dan beragam kerangka kerja untuk memproses Big Data. Anda akan memahami mengapa Apache Spark dianggap sebagai kerangka kerja terbaik untuk Big Data.
Abstraksi utama yang disediakan Spark adalah resilient distributed dataset (RDD), yang merupakan tipe data fundamental dan tulang punggung dari mesin ini. Bab ini memperkenalkan RDD dan menunjukkan cara membuat serta mengeksekusi RDD menggunakan Transformations dan Actions pada RDD.
Pada bab ini, Anda akan mempelajari Spark SQL, yaitu modul Spark untuk pemrosesan data terstruktur. Modul ini menyediakan abstraksi pemrograman bernama DataFrame dan juga dapat bertindak sebagai mesin kueri SQL terdistribusi. Bab ini menunjukkan bagaimana Spark SQL memungkinkan Anda menggunakan DataFrame di Python.
PySpark MLlib adalah pustaka Machine Learning berskala besar milik Apache Spark dalam Python yang terdiri atas algoritme pembelajaran umum dan utilitasnya. Sepanjang bab terakhir ini, Anda akan mempelajari algoritme Machine Learning penting. Anda akan membangun mesin rekomendasi film dan penyaring spam, serta menggunakan pengelompokan k-means.
Latihan Saat Ini