BaşlayınÜcretsiz başlayın

Dosyaya yazma

Videoda, dosyaların analiz için erişilebilir olması amacıyla genellikle Redshift gibi MPP veritabanlarına yüklendiğini gördün.

Tipik iş akışı, veriyi sütun bazlı veri dosyalarına yazmaktır. Bu veri dosyaları daha sonra bir depolama sistemine yüklenir ve buradan veri ambarına kopyalanabilir. Amazon Redshift örneğinde, depolama sistemi S3 olurdu.

İlk adım, dosyayı doğru biçimde yazmaktır. Bu egzersizde Apache Parquet dosya biçimini seçeceksin.

Çalışma alanında film_sdf adlı bir PySpark DataFrame ve film_pdf adlı bir pandas DataFrame bulunuyor.

Bu egzersiz, kursun bir parçasıdır

Data Engineering'e Giriş

Kursa Göz Atın

Egzersiz talimatları

  • pandas DataFrame'i film_pdf'i "films_pdf.parquet" adlı bir parquet dosyasına yaz.
  • PySpark DataFrame'i film_sdf'i "films_sdf.parquet" adlı bir parquet dosyasına yaz.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Kodu Düzenle ve Çalıştır