Lazy işlemeyi kullanma
Lazy işlemeler, veri miktarından bağımsız olarak genelde yaklaşık aynı sürede sonuç döndürür. Bunun nedeni, Spark'ın bir eylem istenene kadar herhangi bir dönüşümü gerçekleştirmemesidir.
Bu egzersizde bir DataFrame (aa_dfw_df) tanımlayacak ve birkaç dönüşüm ekleyeceğiz. Dönüşümlerin tanımlandığı an ile verinin gerçekten sorgulandığı an arasında tamamlanma sürelerini not et. Bu farklar kısa olabilir ama fark edilir düzeydedir. Daha büyük veri miktarlarıyla tam bir Spark kümesinde çalışırken fark çok daha belirgin olur.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Veri Temizleme
Egzersiz talimatları
- DataFrame'i yükle.
Destination AirportsütununaF.lower()dönüşümünü ekle.- Bu işlemin tamamlanma süresindeki farkı not ederek DataFrame'i göster.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')
# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))
# Show the DataFrame
____