Partisi dalam data Anda
Metode textFile() milik SparkContext menerima argumen kedua opsional bernama minPartitions untuk menentukan jumlah minimum partisi. Pada latihan ini, Anda akan membuat RDD bernama fileRDD_part dengan 5 partisi lalu membandingkannya dengan fileRDD yang Anda buat pada latihan sebelumnya. Rujuk Slide "Understanding Partition" di video 2.1 untuk mengetahui metode membuat dan mendapatkan jumlah partisi dalam sebuah RDD.
Ingat, Anda sudah memiliki SparkContext sc, file_path, dan fileRDD yang tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Temukan jumlah partisi yang dimiliki RDD
fileRDD. - Buat RDD bernama
fileRDD_partdari path file, tetapi buat 5 partisi. - Konfirmasikan jumlah partisi pada RDD baru
fileRDD_part.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)
# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)
# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)