BaşlayınÜcretsiz başlayın

Verindeki bölümler (partitions)

SparkContext'in textFile() yöntemi, minimum bölüm sayısını belirtmek için minPartitions adlı isteğe bağlı ikinci bir argüman alır. Bu egzersizde, 5 bölümden oluşan fileRDD_part adlı bir RDD oluşturacak ve bunu önceki egzersizde oluşturduğun fileRDD ile karşılaştıracaksın. Bir RDD'de bölüm oluşturma ve bölüm sayısını öğrenme yöntemleri için video 2.1'deki "Understanding Partition" slaytına bak.

Unutma, çalışma alanında zaten bir SparkContext sc, file_path ve fileRDD mevcut.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Big Data Temelleri

Kursa Göz Atın

Egzersiz talimatları

  • fileRDD RDD'sini destekleyen bölüm (partition) sayısını bul.
  • Dosya yolundan fileRDD_part adlı bir RDD oluştur ama 5 bölüm (partition) oluştur.
  • Yeni fileRDD_part RDD'sindeki bölüm sayısını doğrula.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)

# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)

# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)
Kodu Düzenle ve Çalıştır