DataFrame'lerde SQL ile Analitik
SQL sorguları, DataFrame işlemlerine kıyasla daha kısa ve çalıştırması kolaydır. Ancak bir DataFrame üzerinde SQL sorguları uygulamak için önce DataFrame'in geçici bir görünümünü tablo olarak oluşturman, ardından bu tablo üzerinde SQL sorgularını çalıştırman gerekir.
Çalışma alanında zaten bir SparkContext spark ve salaries_df mevcut.
Bu egzersiz
PySpark'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
salaries_dfDataFrame'inden"salaries_table"adlı geçici bir tablo oluştur.- Kanada'da (
"CA")company_location'a göre "job_title" sütununu çıkarmak için bir sorgu yaz. - SQL sorgusunu uygula ve
canada_titlesadında yeni bir DataFrame oluştur. - Tablo için bir özet al.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a temporary view of salaries_table
salaries_df.____('salaries_table')
# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''
# Apply the SQL "query"
canada_titles = spark.____(____)
# Generate basic statistics
canada_titles.____().show()