cvičení

Výkon při importu souborů

Máš k dispozici velkou sadu dat, kterou chceš načíst do Spark DataFrame. Chceš otestovat rozdíl v rychlosti importu tak, že soubor rozdělíš na více částí.

Máš dva typy souborů: departures_full.txt.gz a departures_xxx.txt.gz, kde xxx je 000 – 013. Stejný počet řádků je rovnoměrně rozdělen mezi jednotlivé soubory.

Pokyny

100 XP

Načti soubor departures_full.txt.gz a soubory departures_xxx.txt.gz do samostatných DataFramů.
Spusť počítání řádků na každém DataFrame a porovnej časy zpracování.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení