BaşlayınÜcretsiz Başlayın

Lazy işlemeyi kullanma

Lazy işlemeler, veri miktarından bağımsız olarak genelde yaklaşık aynı sürede sonuç döndürür. Bunun nedeni, Spark'ın bir eylem istenene kadar herhangi bir dönüşümü gerçekleştirmemesidir.

Bu egzersizde bir DataFrame (aa_dfw_df) tanımlayacak ve birkaç dönüşüm ekleyeceğiz. Dönüşümlerin tanımlandığı an ile verinin gerçekten sorgulandığı an arasında tamamlanma sürelerini not et. Bu farklar kısa olabilir ama fark edilir düzeydedir. Daha büyük veri miktarlarıyla tam bir Spark kümesinde çalışırken fark çok daha belirgin olur.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • DataFrame'i yükle.
  • Destination Airport sütununa F.lower() dönüşümünü ekle.
  • Bu işlemin tamamlanma süresindeki farkı not ederek DataFrame'i göster.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')

# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))

# Show the DataFrame
____
Kodu Düzenle ve Çalıştır