Penggunaan Interaktif PySpark
Spark dilengkapi dengan shell Python interaktif yang sudah terpasang PySpark. PySpark shell berguna untuk pengujian dan debugging dasar serta cukup andal. Cara termudah untuk menunjukkan kemampuan PySpark shell adalah melalui sebuah latihan. Pada latihan ini, Anda akan memuat sebuah list sederhana yang berisi angka dari 1 hingga 100 di dalam PySpark shell.
Hal terpenting yang perlu dipahami di sini adalah kita tidak membuat objek SparkContext karena PySpark secara otomatis membuat objek SparkContext bernama sc di dalam PySpark shell.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Buat list Python bernama
numbyang berisi angka 1 sampai 100. - Muat list tersebut ke dalam Spark menggunakan metode
parallelizemilik Spark Context dan berikan ke variabelspark_data.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a Python list of numbers from 1 to 100
numb = range(____, ____)
# Load the list into PySpark
spark_data = sc.____(numb)