Hızlı veri hattı
Daha karmaşık verileri ayrıştırmadan önce, yöneticin temel adımları içeren basit bir veri hattı (pipeline) örneği görmek istiyor. Bu örnekte, bir veri dosyasını içe alacak, birkaç satırı filtreleyecek, bir Kimlik (ID) sütunu ekleyecek ve ardından çıktıyı JSON veri olarak yazacaksın.
pyspark.sql.functions kütüphanesi geleneksel olarak F takma adıyla, spark bağlamı (context) ile birlikte tanımlıdır.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
2015-departures.csv.gzdosyasını bir DataFrame'e içe aktar. Başlık (header) zaten tanımlı.- DataFrame'i, süresi 0 dakikanın üzerinde olan uçuşları içerecek şekilde filtrele. Sütun adını değil, sütunun indeksini kullan (sütun adlarını/sırasını görmek için
.printSchema()kullanmayı unutma). - Bir ID sütunu ekle.
- Dosyayı
output.jsonadlı bir JSON belge olarak dışa yaz.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the data to a DataFrame
departures_df = spark.____(____, header=____)
# Remove any duration of 0
departures_df = departures_df.____(____)
# Add an ID column
departures_df = departures_df.____('id', ____)
# Write the file out to JSON format
____.write.____(____, mode='overwrite')