BaşlayınÜcretsiz Başlayın

Bir DataFrame'i önbelleğe alma

Bir DataFrame üzerinde birkaç analiz işlemi çalıştırmanı gerektiren bir görev aldın. DataFrame'leri tekrar kullandığında önbelleğe almanın (caching) performansı artırabildiğini öğrendin ve bunu uygulamak istiyorsun.

Havayolu kalkış bilgilerini içeren yeni bir veri kümesiyle çalışacaksın. Yinelenen veriler içerebilir ve bu verilerin çoğaltmalarının kaldırılması gerekecek.

departures_df DataFrame'i tanımlandı, ancak henüz hiçbir eylem gerçekleştirilmedi.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • departures_df DataFrame'indeki benzersiz satırları önbelleğe al.
  • departures_df üzerinde bir count sorgusu çalıştır ve işlemin ne kadar sürdüğünü not et.
  • Satırları tekrar say ve önbelleğe alınmış bir DataFrame'in süre farkını gözlemle.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

start_time = time.time()

# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____

# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))

# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))
Kodu Düzenle ve Çalıştır