Analitik dengan SQL pada DataFrame
Kueri SQL ringkas dan mudah dijalankan dibandingkan operasi DataFrame. Namun, agar dapat menerapkan kueri SQL pada sebuah DataFrame, pertama-tama Anda perlu membuat tampilan sementara (temporary view) dari DataFrame sebagai sebuah tabel, lalu menerapkan kueri SQL pada tabel tersebut.
Anda sudah memiliki SparkContext spark dan salaries_df yang tersedia di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Buat tabel sementara
"salaries_table"dari DataFramesalaries_df. - Susun kueri untuk mengekstrak kolom "job_title" dari
company_locationdi Kanada ("CA"). - Terapkan kueri SQL dan buat DataFrame baru
canada_titles. - Dapatkan ringkasan tabel.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a temporary view of salaries_table
salaries_df.____('salaries_table')
# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''
# Apply the SQL "query"
canada_titles = spark.____(____)
# Generate basic statistics
canada_titles.____().show()