MulaiMulai sekarang secara gratis

Menjalankan Kueri SQL Secara Terprogram

DataFrame dapat dengan mudah dimanipulasi menggunakan kueri SQL di PySpark. Fungsi sql() dalam SparkSession memungkinkan aplikasi menjalankan kueri SQL secara terprogram dan mengembalikan hasilnya sebagai DataFrame lain. Pada latihan ini, Anda akan membuat tabel sementara dari DataFrame yang telah Anda buat sebelumnya, lalu menyusun kueri untuk memilih nama orang dari tabel sementara tersebut dan menugaskan hasilnya ke sebuah DataFrame baru.

Ingat, Anda sudah memiliki SparkSession spark dan sebuah DataFrame di workspace Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat tabel sementara people.
  • Susun sebuah query untuk memilih nama orang dari tabel sementara people.
  • Tugaskan hasil query Spark ke DataFrame baru - people_df_names.
  • Cetak 10 nama teratas dari DataFrame people_df_names.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a temporary table "people"
people_df.____("people")

# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Edit dan Jalankan Kode