BaşlayınÜcretsiz Başlayın

Spark yapılandırmalarını yazma

Artık kümen üzerindeki bazı Spark yapılandırmalarını gözden geçirdiğine göre, Spark'ı ihtiyaçlarına göre ayarlamak için bazı seçenekleri değiştirmek istiyorsun. Yaptığın değişikliklerin kümeyi etkilediğini görmek için biraz veri içe aktaracaksın.

Spark yapılandırması başlangıçta varsayılan 200 bölüm (partition) değerine ayarlanmıştır.

spark nesnesi kullanıma hazır. departures.txt.gz adlı bir dosya içe aktarmaya hazır. departures.txt.gz dosyasındaki benzersiz (distinct) satırları içeren başlangıç DataFrame'i departures_df olarak mevcut.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • departures_df içindeki bölüm sayısını before değişkeninde sakla.
  • spark.sql.shuffle.partitions yapılandırmasını 500 bölüme değiştir.
  • Departures dosyasından benzersiz satırları okuyarak departures_df DataFrame'ini yeniden oluştur.
  • Yapılandırma değişikliğinden önceki ve sonraki bölüm sayılarını yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Store the number of partitions in variable
before = departures_df.____

# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)

# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____

# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)
Kodu Düzenle ve Çalıştır