1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Porovnání broadcast joinu a běžného joinu

Vytvořil/a jsi dva typy joinů – běžný a broadcastovaný. Tvůj manažer teď chce vědět, jaké zlepšení výkonu přináší Sparkové optimalizace. Pokud budou výsledky slibné, dostaneš příležitost dále upravit nastavení Sparku podle potřeby.

K dispozici máš DataFramy normal_df a broadcast_df.

Pokyny

100 XP
  • Spusť .count() na běžném DataFramu.
  • Spusť .count() na broadcastovaném DataFramu.
  • Vypiš počet záznamů a dobu trvání obou DataFramů a všimni si případných rozdílů.