1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Leniwe przetwarzanie w praktyce

Operacje leniwego przetwarzania zazwyczaj kończą się w podobnym czasie, niezależnie od rzeczywistej ilości danych. Wynika to z tego, że Spark nie wykonuje żadnych transformacji, dopóki nie zostanie wywołana akcja.

W tym ćwiczeniu zdefiniujesz DataFrame (aa_dfw_df) i dodasz kilka transformacji. Zwróć uwagę na czas potrzebny do ich wykonania – najpierw przy samym definiowaniu, a potem przy faktycznym odpytaniu danych. Różnice mogą być niewielkie, ale zauważalne. Pracując z pełnym klastrem Spark i większymi zbiorami danych, będą one znacznie bardziej widoczne.

Instrukcje

100 XP
  • Wczytaj DataFrame.
  • Dodaj transformację F.lower() do kolumny Destination Airport.
  • Wyświetl DataFrame za pomocą .show() i zaobserwuj różnicę w czasie wykonania tej akcji.