1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Cachování DataFrame

Dostal/a jsi za úkol provést několik analytických operací nad DataFrame. Víš už, že cachování může zlepšit výkon při opakovaném používání DataFramů, a chceš ho teď využít v praxi.

Budeš pracovat s novým datasetem obsahujícím informace o odletech letadel. Data mohou obsahovat duplicity, které bude potřeba odstranit.

DataFrame departures_df je definován, ale zatím nad ním neproběhly žádné akce.

Pokyny

100 XP
  • Cachuj unikátní řádky z DataFrame departures_df.
  • Spusť dotaz s počítáním řádků nad departures_df a sleduj, jak dlouho operace trvá.
  • Spočítej řádky znovu a porovnej, jak se liší čas u cachovaného DataFrame.