BaşlayınÜcretsiz Başlayın

Verindeki bölümler (partitions)

SparkContext'in textFile() yöntemi, minimum bölüm sayısını belirtmek için minPartitions adlı isteğe bağlı ikinci bir argüman alır. Bu egzersizde, 5 bölümden oluşan fileRDD_part adlı bir RDD oluşturacak ve bunu önceki egzersizde oluşturduğun fileRDD ile karşılaştıracaksın. Bir RDD'de bölüm oluşturma ve bölüm sayısını öğrenme yöntemleri için video 2.1'deki "Understanding Partition" slaytına bak.

Unutma, çalışma alanında zaten bir SparkContext sc, file_path ve fileRDD mevcut.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • fileRDD RDD'sini destekleyen bölüm (partition) sayısını bul.
  • Dosya yolundan fileRDD_part adlı bir RDD oluştur ama 5 bölüm (partition) oluştur.
  • Yeni fileRDD_part RDD'sindeki bölüm sayısını doğrula.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)

# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)

# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)
Kodu Düzenle ve Çalıştır