1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do Spark SQL v Pythonu

Connected

cvičení

Procvičování ukládání do mezipaměti: část 1

V několika následujících cvičeních si vyzkoušíš různé způsoby ukládání dvou DataFrames do mezipaměti.

DataFrame df1 je načten ze souboru CSV a prochází několika kroky zpracování. Protože se df1 použije víckrát, je vhodným kandidátem pro uložení do mezipaměti.

Druhý DataFrame df2 vznikne provedením dalších výpočetně náročných kroků na df1. I ten je kandidátem pro uložení do mezipaměti.

Protože df2 závisí na df1, vyvstává otázka: je lepší uložit do mezipaměti df1, nebo df2?

V tomto cvičení zkusíš uložit do mezipaměti df1. Všimni si, jak dlouho trvá každá akce – v příštím cvičení je budeme porovnávat.

Pokyny

100 XP
  • Ulož do mezipaměti pouze df1.
  • Spusť první akci na df1, zopakuj ji, pak spusť akci na df2 a tu také zopakuj. Tento krok je již připraven za tebe.
  • Ověř, jestli je df1 uložen v mezipaměti.