Sorgu meraklısı mısın?
DataFrame arayüzünün avantajlarından biri, Spark küpendeki tablolar üzerinde SQL sorguları çalıştırabilmendir. SQL deneyimin yoksa endişe etme, sorguları biz sağlayacağız! (SQL hakkında daha fazla öğrenmek için Introduction to SQL kursumuzla başlayabilirsin.)
Son egzersizde gördüğün gibi, küpendeki tablolardan biri flights tablosu. Bu tablo, 2014 ve 2015 yıllarında Portland International Airport (PDX) veya Seattle-Tacoma International Airport (SEA)’dan kalkan her uçuş için bir satır içerir.
Bu tablo üzerinde sorgu çalıştırmak, SparkSession nesnendeki .sql() yöntemini kullanmak kadar kolay. Bu yöntem, sorguyu içeren bir dize alır ve sonuçları bir DataFrame olarak döndürür!
Dikkatli bakarsan, flights tablosunun yalnızca sorgunun içinde geçtiğini, yöntemlere argüman olarak verilmediğini fark edeceksin. Bunun nedeni, veriyi tutan yerel bir nesnenin çalışma ortamında bulunmaması; bu yüzden tabloyu bir argüman olarak geçirmek mantıklı olmaz.
Unutma, çalışma alanında spark adlı bir SparkSession zaten senin için oluşturuldu. (Artık my_spark değil, çünkü biz senin için oluşturduk!)
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırEgzersiz talimatları
.sql()yöntemini kullanarakflightstablosunun ilk 10 satırını al ve sonucuflights10değişkenine kaydet. Uygun SQL sorgusuquerydeğişkeninde mevcut.- DataFrame yöntemi
.show()ileflights10’u yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Don't change this query
query = "FROM flights SELECT * LIMIT 10"
# Get the first 10 rows of flights
flights10 = ____
# Show the results
flights10.____