Criando um pipeline de produção nº 1
Você aprendeu muito sobre como o Airflow funciona - agora é hora de implementar seu fluxo de trabalho em um pipeline de produção composto por muitos objetos, incluindo sensores e operadores. Seu chefe está interessado em ver esse fluxo de trabalho ser automatizado e capaz de fornecer relatórios em SLA, pois isso proporciona uma vantagem extra para fechar um negócio no qual a equipe de vendas está trabalhando. O cliente em potencial indicou que, quando vir as atualizações de forma automatizada, estará disposto a se inscrever no serviço de dados indicado.
Com base no que aprendeu sobre o processo, você sabe que há dados de vendas que serão carregados no sistema. Depois que os dados são carregados, um novo arquivo deve ser criado para iniciar o processamento completo, mas algo não está funcionando corretamente.
Consulte o código-fonte do site DAG para determinar se é necessário adicionar algo a mais.
Este exercício faz parte do curso
Introdução ao Apache Airflow em Python
Instruções de exercício
- Atualize o site DAG em
pipeline.py
para importar os operadores necessários. - Execute a tarefa
sense_file
na linha de comando e verifique se há erros. Use o comandoairflow tasks test <dag_id> <task_id> <date>
e os argumentos apropriados para executar o comando. Para o último argumento, use-1
em vez de uma data específica. - Determine por que a tarefa
sense_file
não é concluída e corrija isso usando o editor. Certifique-se de percorrer a saída do terminal para encontrar qualquer mensagem destacada em vermelho. ERROR mensagens destacadas em vermelho. - Teste novamente a tarefa
sense_file
e verifique se o problema foi corrigido.
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
