MulaiMulai sekarang secara gratis

Analitik dengan SQL pada DataFrame

Kueri SQL ringkas dan mudah dijalankan dibandingkan operasi DataFrame. Namun, agar dapat menerapkan kueri SQL pada sebuah DataFrame, pertama-tama Anda perlu membuat tampilan sementara (temporary view) dari DataFrame sebagai sebuah tabel, lalu menerapkan kueri SQL pada tabel tersebut.

Anda sudah memiliki SparkContext spark dan salaries_df yang tersedia di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Pengantar PySpark

Lihat Kursus

Petunjuk latihan

  • Buat tabel sementara "salaries_table" dari DataFrame salaries_df.
  • Susun kueri untuk mengekstrak kolom "job_title" dari company_location di Kanada ("CA").
  • Terapkan kueri SQL dan buat DataFrame baru canada_titles.
  • Dapatkan ringkasan tabel.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a temporary view of salaries_table
salaries_df.____('salaries_table')

# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''

# Apply the SQL "query"
canada_titles = spark.____(____)

# Generate basic statistics
canada_titles.____().show()
Edit dan Jalankan Kode