1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Výkon při importu souborů

Máš k dispozici velkou sadu dat, kterou chceš načíst do Spark DataFrame. Chceš otestovat rozdíl v rychlosti importu tak, že soubor rozdělíš na více částí.

Máš dva typy souborů: departures_full.txt.gz a departures_xxx.txt.gz, kde xxx je 000 – 013. Stejný počet řádků je rovnoměrně rozdělen mezi jednotlivé soubory.

Pokyny

100 XP
  • Načti soubor departures_full.txt.gz a soubory departures_xxx.txt.gz do samostatných DataFramů.
  • Spusť počítání řádků na každém DataFrame a porovnej časy zpracování.