Gravando em um arquivo
No vídeo, você viu que os arquivos geralmente são carregados em um banco de dados MPP, como o Redshift, para disponibilizá-los para análise.
O fluxo de trabalho típico é gravar os dados em arquivos colunares. Esses arquivos de dados são então enviados para um sistema de armazenamento e, a partir daí, podem ser copiados para o data warehouse. No caso do Amazon Redshift, por exemplo, o sistema de armazenamento seria o S3.
O primeiro passo é gravar um arquivo no formato correto. Neste exercício, você vai escolher o formato Apache Parquet.
Há um DataFrame do PySpark chamado film_sdf e um DataFrame do pandas chamado film_pdf no seu ambiente de trabalho.
Este exercício faz parte do curso
Introdução à Engenharia de Dados
Instruções do exercício
- Grave o DataFrame do
pandasfilm_pdfem um arquivo Parquet chamado"films_pdf.parquet". - Grave o DataFrame do PySpark
film_sdfem um arquivo Parquet chamado"films_sdf.parquet".
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")