Menjalankan SQL pada DataFrame
DataFrame dapat dengan mudah dimanipulasi menggunakan kueri SQL di PySpark. Metode .sql() pada SparkSession memungkinkan aplikasi menjalankan kueri SQL secara terprogram dan mengembalikan hasilnya sebagai DataFrame lain. Pada latihan ini, Anda akan membuat tabel sementara dari DataFrame yang telah Anda buat sebelumnya, lalu menyusun kueri untuk memilih nama orang dari tabel sementara tersebut dan menempatkan hasilnya ke sebuah DataFrame baru.
Ingat, Anda sudah memiliki SparkSession spark dan DataFrame df di workspace Anda.
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Buat tabel sementara bernama
"people"dari DataFramedf. - Susun kueri untuk memilih nama orang dari tabel sementara
people. - Tempatkan hasil kueri Spark ke DataFrame baru bernama
people_df_names. - Cetak 10 nama teratas dari DataFrame
people_df_names.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a temporary table "people"
df.____("people")
# Select the names from the temporary table people
query = """SELECT name FROM ____"""
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)