Broadcast ve normal join'leri karşılaştırma
Normal ve broadcast olmak üzere iki tür join oluşturdun. Şimdi yöneticin, Spark optimizasyonlarını kullanmanın performans iyileştirmesini bilmek istiyor. Sonuçlar umut vericiyse, gerektiğinde Spark kurulumunu ayarlaman için sana daha fazla fırsat verilecek.
normal_df ve broadcast_df DataFrame'lerin kullanımın için hazır.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
- Normal DataFrame üzerinde
.count()çalıştır. - Broadcast edilen DataFrame üzerinde
.count()çalıştır. - DataFrame'lerin sayı ve sürelerini yazdır; aradaki farkları not et.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time
start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time
# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))