ćwiczenie

Wydajność importu plików

Masz do zaimportowania duży zbiór danych do Spark DataFrame. Chcesz sprawdzić, jak podział pliku wpływa na szybkość importu.

Dysponujesz dwoma typami plików: departures_full.txt.gz oraz departures_xxx.txt.gz, gdzie xxx przyjmuje wartości od 000 do 013. Ta sama liczba wierszy jest rozłożona równomiernie między poszczególne pliki.

Instrukcje

100 XP

Zaimportuj plik departures_full.txt.gz oraz pliki departures_xxx.txt.gz do osobnych obiektów DataFrame.
Uruchom metodę count na każdym DataFrame i porównaj czasy wykonania.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie