BaşlayınÜcretsiz Başlayın

DataFrame'lerde SQL ile Analitik

SQL sorguları, DataFrame işlemlerine kıyasla daha kısa ve çalıştırması kolaydır. Ancak bir DataFrame üzerinde SQL sorguları uygulamak için önce DataFrame'in geçici bir görünümünü tablo olarak oluşturman, ardından bu tablo üzerinde SQL sorgularını çalıştırman gerekir.

Çalışma alanında zaten bir SparkContext spark ve salaries_df mevcut.

Bu egzersiz

PySpark'e Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • salaries_df DataFrame'inden "salaries_table" adlı geçici bir tablo oluştur.
  • Kanada'da ("CA") company_location'a göre "job_title" sütununu çıkarmak için bir sorgu yaz.
  • SQL sorgusunu uygula ve canada_titles adında yeni bir DataFrame oluştur.
  • Tablo için bir özet al.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a temporary view of salaries_table
salaries_df.____('salaries_table')

# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''

# Apply the SQL "query"
canada_titles = spark.____(____)

# Generate basic statistics
canada_titles.____().show()
Kodu Düzenle ve Çalıştır