SQL ve Parquet
Parquet dosyaları, Spark'ta SQL sorguları için mükemmel bir arka uç veri deposudur. Aynı sorguları doğrudan Spark'ın Python işlevleriyle de çalıştırmak mümkün olsa da, bazen Python seçeneklerinin yanında SQL sorguları çalıştırmak daha kolay olur.
Bu örnekte, önceki egzersizde oluşturduğumuz Parquet dosyasını okuyup bir SQL tablosu olarak kaydedeceğiz. Kayıt tamamlandıktan sonra tabloya (diğer adıyla Parquet dosyasına) hızlı bir sorgu çalıştıracağız.
spark nesnesi ve AA_DFW_ALL.parquet dosyası senin için otomatik olarak hazır.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
AA_DFW_ALL.parquetdosyasınıflights_dfiçine aktar.createOrReplaceTempViewmetodunu kullanarak tabloyuflightsadıyla eşle.flightstablosuna karşı bir Spark SQL sorgusu çalıştır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Read the Parquet file into flights_df
flights_df = spark.read.____(____)
# Register the temp table
flights_df.____('flights')
# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)