Hızlı veri hattı
Daha karmaşık verileri ayrıştırmadan önce, yöneticin temel adımları içeren basit bir veri hattı (pipeline) örneği görmek istiyor. Bu örnekte, bir veri dosyasını içe alacak, birkaç satırı filtreleyecek, bir Kimlik (ID) sütunu ekleyecek ve ardından çıktıyı JSON veri olarak yazacaksın.
pyspark.sql.functions kütüphanesi geleneksel olarak F takma adıyla, spark bağlamı (context) ile birlikte tanımlıdır.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Veri Temizleme
Egzersiz talimatları
2015-departures.csv.gzdosyasını bir DataFrame'e içe aktar. Başlık (header) zaten tanımlı.- DataFrame'i, süresi 0 dakikanın üzerinde olan uçuşları içerecek şekilde filtrele. Sütun adını değil, sütunun indeksini kullan (sütun adlarını/sırasını görmek için
.printSchema()kullanmayı unutma). - Bir ID sütunu ekle.
- Dosyayı
output.jsonadlı bir JSON belge olarak dışa yaz.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Import the data to a DataFrame
departures_df = spark.____(____, header=____)
# Remove any duration of 0
departures_df = departures_df.____(____)
# Add an ID column
departures_df = departures_df.____('id', ____)
# Write the file out to JSON format
____.write.____(____, mode='overwrite')