Bölüm 2: DataFrame Üzerinde SQL Sorguları
fifa_df DataFrame'i, veri tipleri ve sütun adları hakkında ek bilgiler içerir. Bu ek bilgiler, PySpark SQL'in DataFrame üzerinde SQL sorguları çalıştırmasını sağlar. SQL sorguları, DataFrame işlemlerine kıyasla daha kısa ve çalıştırması daha kolaydır. Ancak DataFrame üzerinde SQL sorguları uygulayabilmek için önce DataFrame'in geçici bir görünümünü tablo olarak oluşturmalı, ardından oluşturulan tablo üzerinde SQL sorgularını çalıştırmalısın (SQL Sorgularını Programatik Olarak Çalıştırma).
Bu ikinci kısımda, fifa_df DataFrame'inden geçici bir tablo oluşturacak ve Almanya'daki oyuncuların 'Age' sütununu çıkarmak için SQL sorguları çalıştıracaksın.
Çalışma alanında bir SparkContext spark ve fifa_df zaten hazır.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Big Data Temelleri
Egzersiz talimatları
fifa_dfDataFrame'indenfifa_df_tableadlı geçici tabloyu oluştur.fifa_df_tableiçinde Almanya oyuncularından "Age" sütununu çıkarmak için bir "query" oluştur.- SQL "query"sini uygula ve
fifa_df_germany_ageadlı yeni bir DataFrame oluştur. - Oluşturulan DataFrame'in temel istatistiklerini hesapla.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')
# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''
# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)
# Generate basic statistics
fifa_df_germany_age.____().show()