Spark yapılandırmalarını yazma

Artık kümen üzerindeki bazı Spark yapılandırmalarını gözden geçirdiğine göre, Spark'ı ihtiyaçlarına göre ayarlamak için bazı seçenekleri değiştirmek istiyorsun. Yaptığın değişikliklerin kümeyi etkilediğini görmek için biraz veri içe aktaracaksın.

Spark yapılandırması başlangıçta varsayılan 200 bölüm (partition) değerine ayarlanmıştır.

spark nesnesi kullanıma hazır. departures.txt.gz adlı bir dosya içe aktarmaya hazır. departures.txt.gz dosyasındaki benzersiz (distinct) satırları içeren başlangıç DataFrame'i departures_df olarak mevcut.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Veri Temizleme

Kursa Göz Atın

Egzersiz talimatları

departures_df içindeki bölüm sayısını before değişkeninde sakla.
spark.sql.shuffle.partitions yapılandırmasını 500 bölüme değiştir.
Departures dosyasından benzersiz satırları okuyarak departures_df DataFrame'ini yeniden oluştur.
Yapılandırma değişikliğinden önceki ve sonraki bölüm sayılarını yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Store the number of partitions in variable
before = departures_df.____

# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)

# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____

# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)

Kodu Düzenle ve Çalıştır