SQL Sorgularını Programatik Olarak Çalıştırma
DataFrame'ler, PySpark'ta SQL sorguları kullanılarak kolayca işlenebilir. Bir SparkSession içindeki sql() fonksiyonu, uygulamaların SQL sorgularını programatik olarak çalıştırmasına olanak tanır ve sonucu başka bir DataFrame olarak döndürür. Bu egzersizde, daha önce oluşturduğun DataFrame'den bir geçici tablo oluşturacak, ardından geçici tablodan kişilerin adlarını seçen bir sorgu yazacak ve sonucu yeni bir DataFrame'e atayacaksın.
Unutma, çalışma alanında bir SparkSession spark ve bir DataFrame zaten mevcut.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
peopleadlı bir geçici tablo oluştur.- Geçici tablo
peopleiçinden kişilerin adlarını seçen birqueryoluştur. - Spark'ın
querysonucunu yeni bir DataFrame'e ata -people_df_names. people_df_namesDataFrame'inden kişilerin ilk 10 adını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a temporary table "people"
people_df.____("people")
# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)