Menggunakan DataFrame
Struktur data inti Spark adalah Resilient Distributed Dataset (RDD). Ini adalah objek tingkat rendah yang memungkinkan Spark bekerja dengan membagi data ke beberapa node dalam kluster. Namun, RDD sulit digunakan secara langsung, sehingga dalam kursus ini Anda akan menggunakan abstraksi Spark DataFrame yang dibangun di atas RDD.
Spark DataFrame dirancang untuk berperilaku mirip dengan tabel SQL (tabel dengan variabel pada kolom dan observasi pada baris). Selain lebih mudah dipahami, DataFrame juga lebih dioptimalkan untuk operasi yang rumit dibandingkan RDD.
Saat Anda mulai memodifikasi dan menggabungkan kolom serta baris data, ada banyak cara untuk mencapai hasil yang sama, tetapi beberapa cara sering kali memerlukan waktu jauh lebih lama daripada yang lain. Saat menggunakan RDD, ilmuwan data harus menentukan sendiri cara yang tepat untuk mengoptimalkan kueri, tetapi implementasi DataFrame telah memiliki banyak optimisasi ini secara bawaan!
Untuk mulai bekerja dengan Spark DataFrame, Anda terlebih dahulu harus membuat objek SparkSession dari SparkContext Anda. Anda dapat menganggap SparkContext sebagai sambungan Anda ke kluster dan SparkSession sebagai antarmuka Anda dengan sambungan tersebut.
Ingat, untuk sisa kursus ini Anda akan memiliki SparkSession bernama spark yang tersedia di ruang kerja Anda!
Manakah dari berikut ini yang merupakan keunggulan Spark DataFrame dibandingkan RDD?
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Latihan interaktif praktis
Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.
Mulai berolahraga