Mulai sekarangMulai gratis

Menulis ke berkas

Dalam video, Anda melihat bahwa berkas sering dimuat ke dalam basis data MPP seperti Redshift agar dapat digunakan untuk analisis.

Alur kerja yang umum adalah menulis data ke dalam berkas data kolumnar. Berkas data ini kemudian diunggah ke sistem penyimpanan dan dari sana dapat disalin ke gudang data. Dalam kasus Amazon Redshift, misalnya, sistem penyimpanannya adalah S3.

Langkah pertama adalah menulis berkas ke format yang tepat. Untuk latihan ini Anda akan memilih format berkas Apache Parquet.

Terdapat sebuah DataFrame PySpark bernama film_sdf dan sebuah DataFrame pandas bernama film_pdf di workspace Anda.

Latihan ini merupakan bagian dari kursus

Pengantar Data Engineering

Lihat Kursus

Instruksi latihan

  • Tulis DataFrame pandas film_pdf ke berkas parquet bernama "films_pdf.parquet".
  • Tulis DataFrame PySpark film_sdf ke berkas parquet bernama "films_sdf.parquet".

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Edit dan Jalankan Kode