1. 학습
  2. /
  3. 강의
  4. /
  5. 데이터 엔지니어링 입문

Connected

연습 문제

Airflow DAGs

Airflow에서는 파이프라인을 DAG(Directed Acyclic Graph, 유향 비순환 그래프)으로 표현해요. 그래프의 노드는 실행되는 작업(task)을 나타내고, 노드 간의 유향 연결은 작업 간의 의존성을 의미합니다.

데이터 파이프라인을 DAG로 표현하는 것은 매우 합리적이에요. 어떤 작업은 다른 작업이 끝나야 시작할 수 있기 때문이죠. 자동차 공장의 조립 라인과 비슷하다고 볼 수 있어요. 작업이 차곡차곡 쌓이고, 각 작업은 이전 작업이 완료되어야 진행할 수 있습니다. 예시 DAG는 다음과 같을 수 있어요:

Example DAG

먼저 프레임을 조립하고, 그다음 차체와 타이어를 장착한 뒤 마지막에 도색을 합니다. 이제 위 예시를 코드로 재현해 보겠습니다.

지침 1/2

undefined XP
    1
    2
  • 먼저, DAG는 매 시간 0분에 실행되어야 해요. crontab 표기법을 사용해 schedule_interval 키워드 인수를 채우세요. 예를 들어, 매 시간 N분은 N * * * *입니다. 이 문제에서는 0분에 실행해야 한다는 점을 기억하세요.