MulaiMulai sekarang secara gratis

Menulis ke berkas

Dalam video, Anda melihat bahwa berkas sering dimuat ke dalam basis data MPP seperti Redshift agar dapat digunakan untuk analisis.

Alur kerja yang umum adalah menulis data ke dalam berkas data kolumnar. Berkas data ini kemudian diunggah ke sistem penyimpanan dan dari sana dapat disalin ke gudang data. Dalam kasus Amazon Redshift, misalnya, sistem penyimpanannya adalah S3.

Langkah pertama adalah menulis berkas ke format yang tepat. Untuk latihan ini Anda akan memilih format berkas Apache Parquet.

Terdapat sebuah DataFrame PySpark bernama film_sdf dan sebuah DataFrame pandas bernama film_pdf di workspace Anda.

Latihan ini adalah bagian dari kursus

Pengantar Data Engineering

Lihat Kursus

Petunjuk latihan

  • Tulis DataFrame pandas film_pdf ke berkas parquet bernama "films_pdf.parquet".
  • Tulis DataFrame PySpark film_sdf ke berkas parquet bernama "films_sdf.parquet".

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Edit dan Jalankan Kode