Gravação em um arquivo
No vídeo, você viu que os arquivos são frequentemente carregados em um banco de dados MPP, como o Redshift, a fim de disponibilizá-los para análise.
O fluxo de trabalho típico é gravar os dados em arquivos de dados colunares. Esses arquivos de dados são então carregados em um sistema de armazenamento e, a partir daí, podem ser copiados para o data warehouse. No caso do Amazon Redshift, o sistema de armazenamento seria o S3, por exemplo.
A primeira etapa é gravar um arquivo no formato correto. Para este exercício, você escolherá o formato de arquivo Apache Parquet.
Há um DataFrame do PySpark chamado film_sdf
e um DataFrame do pandas chamado film_pdf
em seu espaço de trabalho.
Este exercício faz parte do curso
Introdução à engenharia de dados
Instruções de exercício
- Escreva o
pandas
DataFramefilm_pdf
em um arquivo parquet chamado"films_pdf.parquet"
. - Escreva o PySpark DataFrame
film_sdf
em um arquivo de parquet chamado"films_sdf.parquet"
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")