ComeçarComece gratuitamente

Gravação em um arquivo

No vídeo, você viu que os arquivos são frequentemente carregados em um banco de dados MPP, como o Redshift, a fim de disponibilizá-los para análise.

O fluxo de trabalho típico é gravar os dados em arquivos de dados colunares. Esses arquivos de dados são então carregados em um sistema de armazenamento e, a partir daí, podem ser copiados para o data warehouse. No caso do Amazon Redshift, o sistema de armazenamento seria o S3, por exemplo.

A primeira etapa é gravar um arquivo no formato correto. Para este exercício, você escolherá o formato de arquivo Apache Parquet.

Há um DataFrame do PySpark chamado film_sdf e um DataFrame do pandas chamado film_pdf em seu espaço de trabalho.

Este exercício faz parte do curso

Introdução à engenharia de dados

Ver Curso

Instruções de exercício

  • Escreva o pandas DataFrame film_pdf em um arquivo parquet chamado "films_pdf.parquet".
  • Escreva o PySpark DataFrame film_sdf em um arquivo de parquet chamado "films_sdf.parquet".

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Editar e executar código