Dosyaya yazma
Videoda, dosyaların analiz için erişilebilir olması amacıyla genellikle Redshift gibi MPP veritabanlarına yüklendiğini gördün.
Tipik iş akışı, veriyi sütun bazlı veri dosyalarına yazmaktır. Bu veri dosyaları daha sonra bir depolama sistemine yüklenir ve buradan veri ambarına kopyalanabilir. Amazon Redshift örneğinde, depolama sistemi S3 olurdu.
İlk adım, dosyayı doğru biçimde yazmaktır. Bu egzersizde Apache Parquet dosya biçimini seçeceksin.
Çalışma alanında film_sdf adlı bir PySpark DataFrame ve film_pdf adlı bir pandas DataFrame bulunuyor.
Bu egzersiz
Data Engineering'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
pandasDataFrame'ifilm_pdf'i"films_pdf.parquet"adlı bir parquet dosyasına yaz.- PySpark DataFrame'i
film_sdf'i"films_sdf.parquet"adlı bir parquet dosyasına yaz.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")