1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Konfigurowanie ustawień Sparka

Po przejrzeniu konfiguracji Sparka w swoim klastrze chcesz zmodyfikować niektóre ustawienia, aby dostosować go do swoich potrzeb. Zaimportujesz dane, żeby sprawdzić, czy wprowadzone zmiany wpłynęły na klaster.

Konfiguracja Sparka jest początkowo ustawiona na domyślną wartość 200 partycji.

Obiekt spark jest dostępny do użycia. Plik o nazwie departures.txt.gz jest dostępny do zaimportowania. Wstępnie przygotowany DataFrame zawierający unikalne wiersze z pliku departures.txt.gz jest dostępny jako departures_df.

Instrukcje

100 XP
  • Zapisz liczbę partycji w departures_df w zmiennej before.
  • Zmień konfigurację spark.sql.shuffle.partitions na 500 partycji.
  • Utwórz ponownie DataFrame departures_df, odczytując unikalne wiersze z pliku z odlotami.
  • Wyświetl liczbę partycji sprzed zmiany konfiguracji i po niej.