Nastavení konfigurace Sparku

Teď, když sis prošel/a některá nastavení konfigurace Sparku na svém clusteru, chceš upravit část z nich tak, aby Spark lépe vyhovoval tvým potřebám. Naimportuješ data a ověříš, že provedené změny se na clusteru skutečně projevily.

Konfigurace Sparku je zpočátku nastavena na výchozí hodnotu 200 oddílů.

K dispozici máš objekt spark. Soubor departures.txt.gz je připraven k importu. Jako departures_df je dostupný počáteční DataFrame obsahující unikátní řádky ze souboru departures.txt.gz.

Ulož počet oddílů v departures_df do proměnné before.
Změň konfiguraci spark.sql.shuffle.partitions na 500 oddílů.
Znovu vytvoř DataFrame departures_df načtením unikátních řádků ze souboru s odlety.
Vypiš počet oddílů před změnou konfigurace i po ní.

cvičení

Nastavení konfigurace Sparku

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení