Bagian 2: Kueri SQL pada DataFrame
DataFrame fifa_df yang kita buat memiliki informasi tambahan tentang tipe data dan nama kolom yang terkait dengannya. Informasi tambahan ini memungkinkan PySpark SQL menjalankan kueri SQL pada DataFrame. Kueri SQL lebih ringkas dan lebih mudah dijalankan dibanding operasi DataFrame. Namun, untuk menerapkan kueri SQL pada DataFrame, pertama-tama Anda perlu membuat tampilan sementara (temporary view) dari DataFrame sebagai tabel, lalu menerapkan kueri SQL pada tabel yang dibuat (Menjalankan Kueri SQL secara Terprogram).
Pada bagian kedua ini, Anda akan membuat tabel sementara dari DataFrame fifa_df dan menjalankan kueri SQL untuk mengekstrak kolom 'Age' dari pemain asal Jerman.
Anda sudah memiliki SparkContext spark dan fifa_df yang tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Buat tabel sementara
fifa_df_tabledari DataFramefifa_df. - Susun sebuah "query" untuk mengekstrak kolom "Age" dari pemain Jerman di
fifa_df_table. - Terapkan "query" SQL tersebut dan buat DataFrame baru
fifa_df_germany_age. - Hitung statistik dasar dari DataFrame yang dibuat.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')
# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''
# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)
# Generate basic statistics
fifa_df_germany_age.____().show()