1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Spark SQL bằng Python

Connected

Bài tập

Tính tổng chạy bằng window function trong SQL

Window function giống như hàm tổng hợp, nhưng thay vì trả về một hàng cho mỗi nhóm, nó cho ra kết quả cho từng hàng trong dữ liệu.

Bạn có thể vừa tổng hợp vừa dùng window function. Tính tổng chạy (running sum) với window function đơn giản hơn nhiều so với khi phải dùng JOIN, và thời gian chạy truy vấn cũng có thể nhanh hơn đáng kể.

Đã cung cấp cho bạn bảng schedule với các cột train_id, station, time và diff_min. Cột diff_min cho biết thời gian trôi qua giữa ga hiện tại và ga tiếp theo trên tuyến.

Hướng dẫn

100 XP
  • Chạy truy vấn thêm một cột mới vào các bản ghi trong tập dữ liệu này tên là running_total. Cột running_total dùng SUM() trên phần chênh lệch thời gian giữa các ga được cho bởi cột diff_min.
  • Chạy truy vấn và hiển thị kết quả.