Bölüm 2: DataFrame Üzerinde SQL Sorguları
fifa_df DataFrame'i, veri tipleri ve sütun adları hakkında ek bilgiler içerir. Bu ek bilgiler, PySpark SQL'in DataFrame üzerinde SQL sorguları çalıştırmasını sağlar. SQL sorguları, DataFrame işlemlerine kıyasla daha kısa ve çalıştırması daha kolaydır. Ancak DataFrame üzerinde SQL sorguları uygulayabilmek için önce DataFrame'in geçici bir görünümünü tablo olarak oluşturmalı, ardından oluşturulan tablo üzerinde SQL sorgularını çalıştırmalısın (SQL Sorgularını Programatik Olarak Çalıştırma).
Bu ikinci kısımda, fifa_df DataFrame'inden geçici bir tablo oluşturacak ve Almanya'daki oyuncuların 'Age' sütununu çıkarmak için SQL sorguları çalıştıracaksın.
Çalışma alanında bir SparkContext spark ve fifa_df zaten hazır.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
fifa_dfDataFrame'indenfifa_df_tableadlı geçici tabloyu oluştur.fifa_df_tableiçinde Almanya oyuncularından "Age" sütununu çıkarmak için bir "query" oluştur.- SQL "query"sini uygula ve
fifa_df_germany_ageadlı yeni bir DataFrame oluştur. - Oluşturulan DataFrame'in temel istatistiklerini hesapla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')
# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''
# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)
# Generate basic statistics
fifa_df_germany_age.____().show()