BaşlayınÜcretsiz Başlayın

Hızlı veri hattı

Daha karmaşık verileri ayrıştırmadan önce, yöneticin temel adımları içeren basit bir veri hattı (pipeline) örneği görmek istiyor. Bu örnekte, bir veri dosyasını içe alacak, birkaç satırı filtreleyecek, bir Kimlik (ID) sütunu ekleyecek ve ardından çıktıyı JSON veri olarak yazacaksın.

pyspark.sql.functions kütüphanesi geleneksel olarak F takma adıyla, spark bağlamı (context) ile birlikte tanımlıdır.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • 2015-departures.csv.gz dosyasını bir DataFrame'e içe aktar. Başlık (header) zaten tanımlı.
  • DataFrame'i, süresi 0 dakikanın üzerinde olan uçuşları içerecek şekilde filtrele. Sütun adını değil, sütunun indeksini kullan (sütun adlarını/sırasını görmek için .printSchema() kullanmayı unutma).
  • Bir ID sütunu ekle.
  • Dosyayı output.json adlı bir JSON belge olarak dışa yaz.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import the data to a DataFrame
departures_df = spark.____(____, header=____)

# Remove any duration of 0
departures_df = departures_df.____(____)

# Add an ID column
departures_df = departures_df.____('id', ____)

# Write the file out to JSON format
____.write.____(____, mode='overwrite')
Kodu Düzenle ve Çalıştır