MulaiMulai sekarang secara gratis

Menggunakan Spark di Python

Langkah pertama menggunakan Spark adalah terhubung ke sebuah klaster.

Dalam praktiknya, klaster akan dihosting pada mesin jarak jauh yang terhubung ke semua node lainnya. Akan ada satu komputer, disebut master, yang mengelola pembagian data dan komputasi. Master terhubung ke komputer lain di klaster, yang disebut worker. Master mengirimkan data dan perhitungan kepada worker untuk dijalankan, dan mereka mengirimkan hasilnya kembali ke master.

Saat baru mulai menggunakan Spark, lebih sederhana jika menjalankan klaster secara lokal. Maka, untuk kursus ini, alih-alih terhubung ke komputer lain, semua komputasi akan dijalankan di server DataCamp dalam sebuah klaster yang disimulasikan.

Membuat koneksi semudah membuat instance dari kelas SparkContext. Konstruktor kelas ini menerima beberapa argumen opsional yang memungkinkan Anda menentukan atribut klaster yang akan Anda hubungkan.

Sebuah objek yang menampung semua atribut ini dapat dibuat dengan konstruktor SparkConf(). Lihat dokumentasi untuk semua detailnya!

Untuk sisa kursus ini, Anda akan memiliki SparkContext bernama sc yang sudah tersedia di ruang kerja Anda.

Bagaimana cara Anda terhubung ke klaster Spark dari PySpark?

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Latihan interaktif praktis

Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.

Mulai berolahraga