MulaiMulai sekarang secara gratis

Partisi dalam data Anda

Metode textFile() milik SparkContext menerima argumen kedua opsional bernama minPartitions untuk menentukan jumlah minimum partisi. Pada latihan ini, Anda akan membuat RDD bernama fileRDD_part dengan 5 partisi lalu membandingkannya dengan fileRDD yang Anda buat pada latihan sebelumnya. Rujuk Slide "Understanding Partition" di video 2.1 untuk mengetahui metode membuat dan mendapatkan jumlah partisi dalam sebuah RDD.

Ingat, Anda sudah memiliki SparkContext sc, file_path, dan fileRDD yang tersedia di workspace Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Temukan jumlah partisi yang dimiliki RDD fileRDD.
  • Buat RDD bernama fileRDD_part dari path file, tetapi buat 5 partisi.
  • Konfirmasikan jumlah partisi pada RDD baru fileRDD_part.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)

# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)

# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)
Edit dan Jalankan Kode