1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Nastavení konfigurace Sparku

Teď, když sis prošel/a některá nastavení konfigurace Sparku na svém clusteru, chceš upravit část z nich tak, aby Spark lépe vyhovoval tvým potřebám. Naimportuješ data a ověříš, že provedené změny se na clusteru skutečně projevily.

Konfigurace Sparku je zpočátku nastavena na výchozí hodnotu 200 oddílů.

K dispozici máš objekt spark. Soubor departures.txt.gz je připraven k importu. Jako departures_df je dostupný počáteční DataFrame obsahující unikátní řádky ze souboru departures.txt.gz.

Pokyny

100 XP
  • Ulož počet oddílů v departures_df do proměnné before.
  • Změň konfiguraci spark.sql.shuffle.partitions na 500 oddílů.
  • Znovu vytvoř DataFrame departures_df načtením unikátních řádků ze souboru s odlety.
  • Vypiš počet oddílů před změnou konfigurace i po ní.