BaşlayınÜcretsiz Başlayın

Dosya içe aktarma performansı

Büyük bir veri kümesini bir Spark DataFrame'ine aktarman istendi. Dosyayı bölerek içe aktarma hızındaki farkı test etmek istiyorsun.

Elinde iki tür dosya var: departures_full.txt.gz ve xxx değeri 000 - 013 arasında olan departures_xxx.txt.gz. Aynı satır sayısı bu dosyalar arasında bölünmüş durumda.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • departures_full.txt.gz dosyasını ve departures_xxx.txt.gz dosyalarını ayrı DataFrame'lere aktar.
  • Her bir DataFrame üzerinde count çalıştır ve çalışma sürelerini karşılaştır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)

# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))

start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))
Kodu Düzenle ve Çalıştır