1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Líné zpracování v praxi

Operace líného zpracování se obvykle dokončí přibližně za stejnou dobu bez ohledu na skutečné množství dat. Je to proto, že Spark neprovádí žádné transformace, dokud není vyžádána akce.

V tomto cvičení nadefinuješ DataFrame (aa_dfw_df) a přidáš k němu několik transformací. Všímej si, jak dlouho trvá dokončení transformací při jejich definování oproti situaci, kdy se data skutečně dotazují. Rozdíly mohou být malé, ale postřehnutelné. Na plnohodnotném Spark clusteru s větším objemem dat bude tento rozdíl mnohem výraznější.

Pokyny

100 XP
  • Načti DataFrame.
  • Přidej transformaci F.lower() na sloupec Destination Airport.
  • Zobraz DataFrame pomocí .show() a všímej si, jak dlouho tato akce trvá.