Dosya içe aktarma performansı
Büyük bir veri kümesini bir Spark DataFrame'ine aktarman istendi. Dosyayı bölerek içe aktarma hızındaki farkı test etmek istiyorsun.
Elinde iki tür dosya var: departures_full.txt.gz ve xxx değeri 000 - 013 arasında olan departures_xxx.txt.gz. Aynı satır sayısı bu dosyalar arasında bölünmüş durumda.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
departures_full.txt.gzdosyasını vedepartures_xxx.txt.gzdosyalarını ayrı DataFrame'lere aktar.- Her bir DataFrame üzerinde count çalıştır ve çalışma sürelerini karşılaştır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)
# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))
start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))