1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Wydajność importu plików

Masz do zaimportowania duży zbiór danych do Spark DataFrame. Chcesz sprawdzić, jak podział pliku wpływa na szybkość importu.

Dysponujesz dwoma typami plików: departures_full.txt.gz oraz departures_xxx.txt.gz, gdzie xxx przyjmuje wartości od 000 do 013. Ta sama liczba wierszy jest rozłożona równomiernie między poszczególne pliki.

Instrukcje

100 XP
  • Zaimportuj plik departures_full.txt.gz oraz pliki departures_xxx.txt.gz do osobnych obiektów DataFrame.
  • Uruchom metodę count na każdym DataFrame i porównaj czasy wykonania.