Menjalankan berkas PySpark
Pada latihan ini, Anda akan menjalankan berkas PySpark menggunakan spark-submit. Alat ini dapat membantu Anda mengirimkan aplikasi ke klaster Spark.
Untuk keperluan latihan, Anda akan bekerja dengan instance Spark lokal yang berjalan pada 4 thread. Berkas yang perlu Anda kirim ada di /home/repl/spark-script.py. Silakan baca berkas tersebut:
cat /home/repl/spark-script.py
Anda dapat menggunakan spark-submit seperti berikut:
spark-submit \
--master local[4] \
/home/repl/spark-script.py
Apa keluaran yang dihasilkan? Perlu dicatat bahwa mungkin butuh beberapa detik untuk mendapatkan hasilnya.
Latihan ini adalah bagian dari kursus
Pengantar Data Engineering
Latihan interaktif praktis
Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.
Mulai berolahraga