BaşlayınÜcretsiz başlayın

Broadcast ve normal join'leri karşılaştırma

Normal ve broadcast olmak üzere iki tür join oluşturdun. Şimdi yöneticin, Spark optimizasyonlarını kullanmanın performans iyileştirmesini bilmek istiyor. Sonuçlar umut vericiyse, gerektiğinde Spark kurulumunu ayarlaman için sana daha fazla fırsat verilecek.

normal_df ve broadcast_df DataFrame'lerin kullanımın için hazır.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Veri Temizleme

Kursa Göz Atın

Egzersiz talimatları

  • Normal DataFrame üzerinde .count() çalıştır.
  • Broadcast edilen DataFrame üzerinde .count() çalıştır.
  • DataFrame'lerin sayı ve sürelerini yazdır; aradaki farkları not et.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time

start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time

# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))
Kodu Düzenle ve Çalıştır