BaşlayınÜcretsiz Başlayın

Sorgu meraklısı mısın?

DataFrame arayüzünün avantajlarından biri, Spark küpendeki tablolar üzerinde SQL sorguları çalıştırabilmendir. SQL deneyimin yoksa endişe etme, sorguları biz sağlayacağız! (SQL hakkında daha fazla öğrenmek için Introduction to SQL kursumuzla başlayabilirsin.)

Son egzersizde gördüğün gibi, küpendeki tablolardan biri flights tablosu. Bu tablo, 2014 ve 2015 yıllarında Portland International Airport (PDX) veya Seattle-Tacoma International Airport (SEA)’dan kalkan her uçuş için bir satır içerir.

Bu tablo üzerinde sorgu çalıştırmak, SparkSession nesnendeki .sql() yöntemini kullanmak kadar kolay. Bu yöntem, sorguyu içeren bir dize alır ve sonuçları bir DataFrame olarak döndürür!

Dikkatli bakarsan, flights tablosunun yalnızca sorgunun içinde geçtiğini, yöntemlere argüman olarak verilmediğini fark edeceksin. Bunun nedeni, veriyi tutan yerel bir nesnenin çalışma ortamında bulunmaması; bu yüzden tabloyu bir argüman olarak geçirmek mantıklı olmaz.

Unutma, çalışma alanında spark adlı bir SparkSession zaten senin için oluşturuldu. (Artık my_spark değil, çünkü biz senin için oluşturduk!)

Bu egzersiz

PySpark Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • .sql() yöntemini kullanarak flights tablosunun ilk 10 satırını al ve sonucu flights10 değişkenine kaydet. Uygun SQL sorgusu query değişkeninde mevcut.
  • DataFrame yöntemi .show() ile flights10’u yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Don't change this query
query = "FROM flights SELECT * LIMIT 10"

# Get the first 10 rows of flights
flights10 = ____

# Show the results
flights10.____
Kodu Düzenle ve Çalıştır