1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Kubernetes

Connected

Bài tập

Triển khai một pipeline ETL trên Kubernetes

Bạn sẽ triển khai một pipeline ETL trên Kubernetes. Các bước Extract, Transform và Load sẽ được thực hiện bởi các Pod, đọc và ghi vào các Persistent Volume tương ứng do các Persistent Volume Claim tạo ra.

Nhiệm vụ của bạn là tìm tổng số hành khách đi taxi vàng NYC theo nhóm từ 2 người trở lên. "Extract Pod" của bạn sẽ chuẩn bị dữ liệu ban đầu dưới dạng tệp CSV và chuyển cho "Transform Pod". Pod này sẽ tinh chỉnh dữ liệu taxi vàng vào một cơ sở dữ liệu SQLite, chọn toàn bộ dữ liệu cần thiết cho phép tính cuối cùng, và chuyển cho "Load Pod". Pod cuối cùng này sẽ cộng tổng số hành khách, hiển thị kết quả và lưu lại dưới dạng tệp CSV.

Tất cả các bước này sẽ được thực hiện bằng các đối tượng Kubernetes tiêu chuẩn mà bạn đã biết. Đã có sẵn hai thư mục, "Docker/" và "Manifests/", chứa các tệp cần thiết để tạo Docker image và triển khai chúng bằng Kubernetes.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Kiểm tra các tệp trong thư mục Docker/, đặc biệt là Docker/Dockerfile.* và Docker/*.sql. Bạn có thể dùng trình xem như more, hoặc lệnh cat để xem nội dung từng tệp.
  • Chạy script build 01_build_and_upload_images.sh bằng lệnh bash. Lệnh này sẽ build ba Docker image (extract:v1, transform:v1, load:v1) và upload chúng vào cụm Kubernetes của bạn.

Lưu ý: Đã có sẵn hai thư mục, "Docker/" và "Manifests/", chứa các tệp cần thiết để tạo Docker image và triển khai chúng bằng Kubernetes. Bạn có thể thoát lệnh cat bằng 'CTRL+D'.