Verindeki bölümler (partitions)
SparkContext'in textFile() yöntemi, minimum bölüm sayısını belirtmek için minPartitions adlı isteğe bağlı ikinci bir argüman alır. Bu egzersizde, 5 bölümden oluşan fileRDD_part adlı bir RDD oluşturacak ve bunu önceki egzersizde oluşturduğun fileRDD ile karşılaştıracaksın. Bir RDD'de bölüm oluşturma ve bölüm sayısını öğrenme yöntemleri için video 2.1'deki "Understanding Partition" slaytına bak.
Unutma, çalışma alanında zaten bir SparkContext sc, file_path ve fileRDD mevcut.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
fileRDDRDD'sini destekleyen bölüm (partition) sayısını bul.- Dosya yolundan
fileRDD_partadlı bir RDD oluştur ama 5 bölüm (partition) oluştur. - Yeni
fileRDD_partRDD'sindeki bölüm sayısını doğrula.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)
# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)
# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)