Gravando em um arquivo

No vídeo, você viu que os arquivos geralmente são carregados em um banco de dados MPP, como o Redshift, para disponibilizá-los para análise.

O fluxo de trabalho típico é gravar os dados em arquivos colunares. Esses arquivos de dados são então enviados para um sistema de armazenamento e, a partir daí, podem ser copiados para o data warehouse. No caso do Amazon Redshift, por exemplo, o sistema de armazenamento seria o S3.

O primeiro passo é gravar um arquivo no formato correto. Neste exercício, você vai escolher o formato Apache Parquet.

Há um DataFrame do PySpark chamado film_sdf e um DataFrame do pandas chamado film_pdf no seu ambiente de trabalho.

Este exercício faz parte do curso

Introdução à Engenharia de Dados

Instruções do exercício

Grave o DataFrame do pandas film_pdf em um arquivo Parquet chamado "films_pdf.parquet".
Grave o DataFrame do PySpark film_sdf em um arquivo Parquet chamado "films_sdf.parquet".

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")

Editar e executar o código

Este exercício faz parte do curso

Introdução à Engenharia de Dados

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Neste primeiro capítulo, você vai ser apresentado ao mundo da engenharia de dados! Explore as diferenças entre um engenheiro de dados e um cientista de dados, conheça uma visão geral das várias ferramentas usadas por engenheiros de dados e aprofunde seu entendimento sobre como a tecnologia em nuvem tem um papel na engenharia de dados.

Exercise 1: O que é engenharia de dados?Exercise 2: Tarefas do data engineer Exercise 3: Data engineer ou data scientist?Exercise 4: Problemas de engenharia de dados Exercise 5: Ferramentas do engenheiro de dados Exercise 6: Tipos de bancos de dados Exercise 7: Tarefas de processamento Exercise 8: Ferramentas de agendamento Exercise 9: Provedores de nuvem Exercise 10: Por que computação em nuvem?Exercise 11: Grandes players em computação em nuvem Exercise 12: Serviços em nuvem

Agora que você conhece as principais diferenças entre um engenheiro de dados e um cientista de dados, prepare-se para explorar o conjunto de ferramentas do engenheiro de dados! Aprenda em detalhes sobre os diferentes tipos de bancos de dados usados por engenheiros de dados, como a computação paralela é um pilar do kit de ferramentas do engenheiro de dados e como agendar tarefas de processamento de dados usando frameworks de agendamento.

Exercise 1: Bancos de dados Exercise 2: SQL vs NoSQL Exercise 3: O esquema do banco de dados Exercise 4: Juntando por relações Exercise 5: Diagrama de star schema Exercise 6: O que é computação paralela Exercise 7: Por que computação paralela?Exercise 8: De tarefa a subtarefas Exercise 9: Usando um DataFrame Exercise 10: Frameworks de computação paralela Exercise 11: Spark, Hadoop e Hive Exercise 12: Um groupby em PySpark Exercise 13: Executando arquivos PySpark Exercise 14: Frameworks de agendamento de workflows Exercise 15: Airflow, Luigi e cron Exercise 16: DAGs no Airflow

Depois de conhecer as ferramentas dos engenheiros de dados, é hora de entrar no básico do fluxo de trabalho de um engenheiro de dados! Com ETL, você vai aprender a extrair dados brutos de várias fontes, transformar esses dados em insights acionáveis e carregá-los em bancos de dados relevantes, prontos para consumo!

Exercise 1: Extrair Exercise 2: Fontes de dados Exercise 3: Buscar em uma API Exercise 4: Ler de um banco de dados Exercise 5: Transformar Exercise 6: Dividindo a taxa de aluguel Exercise 7: Prepare-se para as transformações Exercise 8: Fazendo join com ratings Exercise 9: Carregamento Exercise 10: OLAP ou OLTP Exercise 11: Gravando em um arquivo

Exercício atual

Exercise 12: Carregar no Postgres Exercise 13: Juntando tudo Exercise 14: Definindo um DAG Exercise 15: Configurando o Airflow Exercise 16: Interpretando o DAG

Consolide tudo o que você aprendeu nos três capítulos anteriores concluindo um caso de uso real de engenharia de dados da DataCamp! Você vai executar e agendar um processo de ETL que transforma dados brutos de avaliação de cursos em recomendações de cursos acionáveis para estudantes da DataCamp!

Exercise 1: Avaliações de cursos Exercise 2: Explorando o esquema Exercise 3: Consultando a tabela Exercise 4: Avaliação média por curso Exercise 5: Das avaliações às recomendações Exercise 6: Filtrar dados corrompidos Exercise 7: Usando a transformação do sistema de recomendação Exercise 8: Agendando tarefas diárias Exercise 9: A tabela de destino Exercise 10: Definindo a DAG Exercise 11: Ativar o DAG Exercise 12: Consultando as recomendações Exercise 13: Parabéns