1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Sử dụng xử lý lười (lazy processing)

Các phép xử lý lười thường trả về trong khoảng thời gian gần như nhau, bất kể lượng dữ liệu thực tế. Hãy nhớ rằng điều này là do Spark không thực hiện bất kỳ phép biến đổi nào cho đến khi có một hành động được yêu cầu.

Trong bài này, bạn sẽ định nghĩa một Data Frame (aa_dfw_df) và thêm một vài phép biến đổi. Lưu ý lượng thời gian cần để hoàn tất các phép biến đổi khi chỉ mới được định nghĩa so với khi dữ liệu thực sự được truy vấn. Sự chênh lệch có thể ngắn, nhưng bạn sẽ nhận ra. Khi làm việc với cả cụm Spark và khối lượng dữ liệu lớn hơn, khác biệt sẽ rõ hơn.

Hướng dẫn

100 XP
  • Tải Data Frame.
  • Thêm phép biến đổi F.lower() cho cột Destination Airport.
  • Hiển thị Data Frame và lưu ý sự khác biệt về thời gian để hành động này hoàn tất.