Definindo um DAG

Nos exercícios anteriores, você aplicou as três etapas do processo de ETL:

Extract: extrair a tabela film do PostgreSQL para o pandas.
Transform: dividir a coluna rental_rate do DataFrame film.
Load: carregar o DataFrame film em um data warehouse PostgreSQL.

As funções extract_film_to_pandas(), transform_rental_rate() e load_dataframe_to_film() estão definidas no seu ambiente de trabalho. Neste exercício, você vai adicionar uma tarefa de ETL a um DAG existente. O DAG a ser estendido e a tarefa a aguardar estão definidos no seu ambiente como dag e wait_for_table, respectivamente.

Este exercicio faz parte do curso

Introdução à Engenharia de Dados

Instruções do exercicio

Complete a função etl() usando as funções definidas na descrição do exercício.
Garanta que etl_task use o callable etl.
Configure a dependência upstream correta. Note que etl_task deve aguardar a conclusão de wait_for_table.
O código de exemplo inclui uma execução de teste. Isso significa que o pipeline de ETL será executado quando você rodar o código.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Define the ETL function
def etl():
    film_df = ____()
    film_df = ____(____)
    ____(____)

# Define the ETL task using PythonOperator
etl_task = PythonOperator(task_id='etl_film',
                          python_callable=____,
                          dag=dag)

# Set the upstream to wait_for_table and sample run etl()
etl_task.____(wait_for_table)
etl()

Editar e Executar Código

Este exercicio faz parte do curso

Introdução à Engenharia de Dados

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Neste primeiro capítulo, você vai ser apresentado ao mundo da engenharia de dados! Explore as diferenças entre um engenheiro de dados e um cientista de dados, conheça uma visão geral das várias ferramentas usadas por engenheiros de dados e aprofunde seu entendimento sobre como a tecnologia em nuvem tem um papel na engenharia de dados.

Exercise 1: O que é engenharia de dados?Exercise 2: Tarefas do data engineer Exercise 3: Data engineer ou data scientist?Exercise 4: Problemas de engenharia de dados Exercise 5: Ferramentas do engenheiro de dados Exercise 6: Tipos de bancos de dados Exercise 7: Tarefas de processamento Exercise 8: Ferramentas de agendamento Exercise 9: Provedores de nuvem Exercise 10: Por que computação em nuvem?Exercise 11: Grandes players em computação em nuvem Exercise 12: Serviços em nuvem

Agora que você conhece as principais diferenças entre um engenheiro de dados e um cientista de dados, prepare-se para explorar o conjunto de ferramentas do engenheiro de dados! Aprenda em detalhes sobre os diferentes tipos de bancos de dados usados por engenheiros de dados, como a computação paralela é um pilar do kit de ferramentas do engenheiro de dados e como agendar tarefas de processamento de dados usando frameworks de agendamento.

Exercise 1: Bancos de dados Exercise 2: SQL vs NoSQL Exercise 3: O esquema do banco de dados Exercise 4: Juntando por relações Exercise 5: Diagrama de star schema Exercise 6: O que é computação paralela Exercise 7: Por que computação paralela?Exercise 8: De tarefa a subtarefas Exercise 9: Usando um DataFrame Exercise 10: Frameworks de computação paralela Exercise 11: Spark, Hadoop e Hive Exercise 12: Um groupby em PySpark Exercise 13: Executando arquivos PySpark Exercise 14: Frameworks de agendamento de workflows Exercise 15: Airflow, Luigi e cron Exercise 16: DAGs no Airflow

Depois de conhecer as ferramentas dos engenheiros de dados, é hora de entrar no básico do fluxo de trabalho de um engenheiro de dados! Com ETL, você vai aprender a extrair dados brutos de várias fontes, transformar esses dados em insights acionáveis e carregá-los em bancos de dados relevantes, prontos para consumo!

Exercise 1: Extrair Exercise 2: Fontes de dados Exercise 3: Buscar em uma API Exercise 4: Ler de um banco de dados Exercise 5: Transformar Exercise 6: Dividindo a taxa de aluguel Exercise 7: Prepare-se para as transformações Exercise 8: Fazendo join com ratings Exercise 9: Carregamento Exercise 10: OLAP ou OLTP Exercise 11: Gravando em um arquivo Exercise 12: Carregar no Postgres Exercise 13: Juntando tudo Exercise 14: Definindo um DAG

Exercicio Atual

Exercise 15: Configurando o Airflow Exercise 16: Interpretando o DAG

Consolide tudo o que você aprendeu nos três capítulos anteriores concluindo um caso de uso real de engenharia de dados da DataCamp! Você vai executar e agendar um processo de ETL que transforma dados brutos de avaliação de cursos em recomendações de cursos acionáveis para estudantes da DataCamp!

Exercise 1: Avaliações de cursos Exercise 2: Explorando o esquema Exercise 3: Consultando a tabela Exercise 4: Avaliação média por curso Exercise 5: Das avaliações às recomendações Exercise 6: Filtrar dados corrompidos Exercise 7: Usando a transformação do sistema de recomendação Exercise 8: Agendando tarefas diárias Exercise 9: A tabela de destino Exercise 10: Definindo a DAG Exercise 11: Ativar o DAG Exercise 12: Consultando as recomendações Exercise 13: Parabéns