Broadcast ve normal join'leri karşılaştırma
Normal ve broadcast olmak üzere iki tür join oluşturdun. Şimdi yöneticin, Spark optimizasyonlarını kullanmanın performans iyileştirmesini bilmek istiyor. Sonuçlar umut vericiyse, gerektiğinde Spark kurulumunu ayarlaman için sana daha fazla fırsat verilecek.
normal_df ve broadcast_df DataFrame'lerin kullanımın için hazır.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Veri Temizleme
Egzersiz talimatları
- Normal DataFrame üzerinde
.count()çalıştır. - Broadcast edilen DataFrame üzerinde
.count()çalıştır. - DataFrame'lerin sayı ve sürelerini yazdır; aradaki farkları not et.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time
start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time
# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))