Map dan Collect
Metode utama untuk memanipulasi data di PySpark adalah menggunakan map(). Transformasi map() menerima sebuah fungsi dan menerapkannya pada setiap elemen di RDD. Transformasi ini dapat digunakan untuk berbagai hal, mulai dari mengambil situs web yang terkait dengan setiap URL dalam koleksi kita hingga sekadar menguadratkan angka. Dalam latihan sederhana ini, Anda akan menggunakan transformasi map() untuk menaikkan pangkat tiga setiap angka pada RDD numbRDD yang telah Anda buat sebelumnya. Selanjutnya, Anda akan menyimpan semua elemennya ke dalam sebuah variabel dan akhirnya mencetak keluarannya.
Ingat, Anda sudah memiliki SparkContext sc, dan numbRDD tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Buat transformasi
map()yang menaikkan pangkat tiga semua angka dalamnumbRDD. - Kumpulkan hasilnya ke dalam variabel
numbers_all. - Cetak keluaran dari variabel
numbers_all.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)
# Collect the results
numbers_all = cubedRDD.____()
# Print the numbers from numbers_all
for numb in ____:
print(____)