1. Learn
  2. /
  3. Cursuri
  4. /
  5. Introducere în Spark SQL în Python

Connected

exercițiu

Exersarea stocării în cache: partea 1

În următoarele câteva exerciții, vei experimenta diferite moduri de a stoca în cache două DataFrame-uri.

Un dataframe df1 este încărcat dintr-un fișier CSV. Asupra lui sunt aplicate mai multe etape de procesare. Deoarece df1 va fi folosit de mai multe ori, este un candidat potrivit pentru cache.

Al doilea dataframe, df2, este creat prin aplicarea unor pași suplimentari, cu consum mare de resurse, pe df1. Și acesta este un candidat pentru cache.

Deoarece df2 depinde de df1, apare întrebarea: este mai bine să stochezi în cache df1 sau df2?

În acest exercițiu, vom încerca să stocăm în cache df1. Observă cât timp durează fiecare acțiune – le vom compara în exercițiul următor.

Instrucțiuni

100 XP
  • Stochează în cache doar df1.
  • Rulează o primă acțiune pe df1 și repet-o, apoi rulează o acțiune pe df2 și repet-o. Această parte a fost deja realizată pentru tine.
  • Verifică dacă df1 este stocat în cache.