Spark yapılandırmalarını yazma
Artık kümen üzerindeki bazı Spark yapılandırmalarını gözden geçirdiğine göre, Spark'ı ihtiyaçlarına göre ayarlamak için bazı seçenekleri değiştirmek istiyorsun. Yaptığın değişikliklerin kümeyi etkilediğini görmek için biraz veri içe aktaracaksın.
Spark yapılandırması başlangıçta varsayılan 200 bölüm (partition) değerine ayarlanmıştır.
spark nesnesi kullanıma hazır. departures.txt.gz adlı bir dosya içe aktarmaya hazır. departures.txt.gz dosyasındaki benzersiz (distinct) satırları içeren başlangıç DataFrame'i departures_df olarak mevcut.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
departures_dfiçindeki bölüm sayısınıbeforedeğişkeninde sakla.spark.sql.shuffle.partitionsyapılandırmasını 500 bölüme değiştir.- Departures dosyasından benzersiz satırları okuyarak
departures_dfDataFrame'ini yeniden oluştur. - Yapılandırma değişikliğinden önceki ve sonraki bölüm sayılarını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Store the number of partitions in variable
before = departures_df.____
# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)
# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____
# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)