ComeçarComece de graça

Gravando em um arquivo

No vídeo, você viu que os arquivos geralmente são carregados em um banco de dados MPP, como o Redshift, para disponibilizá-los para análise.

O fluxo de trabalho típico é gravar os dados em arquivos colunares. Esses arquivos de dados são então enviados para um sistema de armazenamento e, a partir daí, podem ser copiados para o data warehouse. No caso do Amazon Redshift, por exemplo, o sistema de armazenamento seria o S3.

O primeiro passo é gravar um arquivo no formato correto. Neste exercício, você vai escolher o formato Apache Parquet.

Há um DataFrame do PySpark chamado film_sdf e um DataFrame do pandas chamado film_pdf no seu ambiente de trabalho.

Este exercício faz parte do curso

Introdução à Engenharia de Dados

Ver curso

Instruções do exercício

  • Grave o DataFrame do pandas film_pdf em um arquivo Parquet chamado "films_pdf.parquet".
  • Grave o DataFrame do PySpark film_sdf em um arquivo Parquet chamado "films_sdf.parquet".

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Editar e executar o código