BaşlayınÜcretsiz Başlayın

SQL ve Parquet

Parquet dosyaları, Spark'ta SQL sorguları için mükemmel bir arka uç veri deposudur. Aynı sorguları doğrudan Spark'ın Python işlevleriyle de çalıştırmak mümkün olsa da, bazen Python seçeneklerinin yanında SQL sorguları çalıştırmak daha kolay olur.

Bu örnekte, önceki egzersizde oluşturduğumuz Parquet dosyasını okuyup bir SQL tablosu olarak kaydedeceğiz. Kayıt tamamlandıktan sonra tabloya (diğer adıyla Parquet dosyasına) hızlı bir sorgu çalıştıracağız.

spark nesnesi ve AA_DFW_ALL.parquet dosyası senin için otomatik olarak hazır.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • AA_DFW_ALL.parquet dosyasını flights_df içine aktar.
  • createOrReplaceTempView metodunu kullanarak tabloyu flights adıyla eşle.
  • flights tablosuna karşı bir Spark SQL sorgusu çalıştır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Read the Parquet file into flights_df
flights_df = spark.read.____(____)

# Register the temp table
flights_df.____('flights')

# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)
Kodu Düzenle ve Çalıştır