MulaiMulai sekarang secara gratis

Penggunaan Interaktif PySpark

Spark dilengkapi dengan shell Python interaktif yang sudah terpasang PySpark. PySpark shell berguna untuk pengujian dan debugging dasar serta cukup andal. Cara termudah untuk menunjukkan kemampuan PySpark shell adalah melalui sebuah latihan. Pada latihan ini, Anda akan memuat sebuah list sederhana yang berisi angka dari 1 hingga 100 di dalam PySpark shell.

Hal terpenting yang perlu dipahami di sini adalah kita tidak membuat objek SparkContext karena PySpark secara otomatis membuat objek SparkContext bernama sc di dalam PySpark shell.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat list Python bernama numb yang berisi angka 1 sampai 100.
  • Muat list tersebut ke dalam Spark menggunakan metode parallelize milik Spark Context dan berikan ke variabel spark_data.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a Python list of numbers from 1 to 100 
numb = range(____, ____)

# Load the list into PySpark  
spark_data = sc.____(numb)
Edit dan Jalankan Kode