DataFrame'lerde SQL çalıştırma
PySpark'ta SQL sorguları kullanarak DataFrame'leri kolayca manipüle edebilirsin. Bir SparkSession içindeki .sql() yöntemi, uygulamaların programatik olarak SQL sorguları çalıştırmasına olanak tanır ve sonucu başka bir DataFrame olarak döndürür. Bu egzersizde, daha önce oluşturduğun bir DataFrame'den geçici bir tablo yaratacak, ardından bu geçici tablodan kişilerin adlarını seçen bir sorgu yazacak ve sonucu yeni bir DataFrame'e atayacaksın.
Unutma, çalışma alanında bir SparkSession spark ve bir DataFrame df zaten mevcut.
Bu egzersiz
PySpark'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
dfDataFrame'inden"people"adlı bir geçici tablo oluştur.peopleadlı geçici tablodan kişilerin adlarını seçen bir sorgu yaz.- Spark sorgusunun sonucunu
people_df_namesadlı yeni bir DataFrame'e ata. people_df_namesDataFrame'inden kişilerin ilk 10 adını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a temporary table "people"
df.____("people")
# Select the names from the temporary table people
query = """SELECT name FROM ____"""
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)