BaşlayınÜcretsiz Başlayın

Broadcast ve normal join'leri karşılaştırma

Normal ve broadcast olmak üzere iki tür join oluşturdun. Şimdi yöneticin, Spark optimizasyonlarını kullanmanın performans iyileştirmesini bilmek istiyor. Sonuçlar umut vericiyse, gerektiğinde Spark kurulumunu ayarlaman için sana daha fazla fırsat verilecek.

normal_df ve broadcast_df DataFrame'lerin kullanımın için hazır.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Normal DataFrame üzerinde .count() çalıştır.
  • Broadcast edilen DataFrame üzerinde .count() çalıştır.
  • DataFrame'lerin sayı ve sürelerini yazdır; aradaki farkları not et.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time

start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time

# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))
Kodu Düzenle ve Çalıştır