Menulis ke berkas
Dalam video, Anda melihat bahwa berkas sering dimuat ke dalam basis data MPP seperti Redshift agar dapat digunakan untuk analisis.
Alur kerja yang umum adalah menulis data ke dalam berkas data kolumnar. Berkas data ini kemudian diunggah ke sistem penyimpanan dan dari sana dapat disalin ke gudang data. Dalam kasus Amazon Redshift, misalnya, sistem penyimpanannya adalah S3.
Langkah pertama adalah menulis berkas ke format yang tepat. Untuk latihan ini Anda akan memilih format berkas Apache Parquet.
Terdapat sebuah DataFrame PySpark bernama film_sdf dan sebuah DataFrame pandas bernama film_pdf di workspace Anda.
Latihan ini adalah bagian dari kursus
Pengantar Data Engineering
Petunjuk latihan
- Tulis DataFrame
pandasfilm_pdfke berkas parquet bernama"films_pdf.parquet". - Tulis DataFrame PySpark
film_sdfke berkas parquet bernama"films_sdf.parquet".
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")