BaşlayınÜcretsiz Başlayın

Bölüm 2: DataFrame Üzerinde SQL Sorguları

fifa_df DataFrame'i, veri tipleri ve sütun adları hakkında ek bilgiler içerir. Bu ek bilgiler, PySpark SQL'in DataFrame üzerinde SQL sorguları çalıştırmasını sağlar. SQL sorguları, DataFrame işlemlerine kıyasla daha kısa ve çalıştırması daha kolaydır. Ancak DataFrame üzerinde SQL sorguları uygulayabilmek için önce DataFrame'in geçici bir görünümünü tablo olarak oluşturmalı, ardından oluşturulan tablo üzerinde SQL sorgularını çalıştırmalısın (SQL Sorgularını Programatik Olarak Çalıştırma).

Bu ikinci kısımda, fifa_df DataFrame'inden geçici bir tablo oluşturacak ve Almanya'daki oyuncuların 'Age' sütununu çıkarmak için SQL sorguları çalıştıracaksın.

Çalışma alanında bir SparkContext spark ve fifa_df zaten hazır.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • fifa_df DataFrame'inden fifa_df_table adlı geçici tabloyu oluştur.
  • fifa_df_table içinde Almanya oyuncularından "Age" sütununu çıkarmak için bir "query" oluştur.
  • SQL "query"sini uygula ve fifa_df_germany_age adlı yeni bir DataFrame oluştur.
  • Oluşturulan DataFrame'in temel istatistiklerini hesapla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')

# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''

# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)

# Generate basic statistics
fifa_df_germany_age.____().show()
Kodu Düzenle ve Çalıştır