Menulis ke berkas
Dalam video, Anda melihat bahwa berkas sering dimuat ke dalam basis data MPP seperti Redshift agar dapat digunakan untuk analisis.
Alur kerja yang umum adalah menulis data ke dalam berkas data kolumnar. Berkas data ini kemudian diunggah ke sistem penyimpanan dan dari sana dapat disalin ke gudang data. Dalam kasus Amazon Redshift, misalnya, sistem penyimpanannya adalah S3.
Langkah pertama adalah menulis berkas ke format yang tepat. Untuk latihan ini Anda akan memilih format berkas Apache Parquet.
Terdapat sebuah DataFrame PySpark bernama film_sdf dan sebuah DataFrame pandas bernama film_pdf di workspace Anda.
Latihan ini merupakan bagian dari kursus
Pengantar Data Engineering
Instruksi latihan
- Tulis DataFrame
pandasfilm_pdfke berkas parquet bernama"films_pdf.parquet". - Tulis DataFrame PySpark
film_sdfke berkas parquet bernama"films_sdf.parquet".
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")