Bir DataFrame'i önbelleğe alma
Bir DataFrame üzerinde birkaç analiz işlemi çalıştırmanı gerektiren bir görev aldın. DataFrame'leri tekrar kullandığında önbelleğe almanın (caching) performansı artırabildiğini öğrendin ve bunu uygulamak istiyorsun.
Havayolu kalkış bilgilerini içeren yeni bir veri kümesiyle çalışacaksın. Yinelenen veriler içerebilir ve bu verilerin çoğaltmalarının kaldırılması gerekecek.
departures_df DataFrame'i tanımlandı, ancak henüz hiçbir eylem gerçekleştirilmedi.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
departures_dfDataFrame'indeki benzersiz satırları önbelleğe al.departures_dfüzerinde bir count sorgusu çalıştır ve işlemin ne kadar sürdüğünü not et.- Satırları tekrar say ve önbelleğe alınmış bir DataFrame'in süre farkını gözlemle.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
start_time = time.time()
# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____
# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))
# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))