Apakah Anda penasaran dengan kueri?
Salah satu keunggulan antarmuka DataFrame adalah Anda dapat menjalankan kueri SQL pada tabel di kluster Spark Anda. Jika Anda belum berpengalaman dengan SQL, jangan khawatir, kami akan menyediakan kuerinya! (Untuk mempelajari SQL lebih lanjut, mulailah dengan kursus Introduction to SQL kami.)
Seperti yang Anda lihat pada latihan sebelumnya, salah satu tabel di kluster Anda adalah tabel flights. Tabel ini berisi satu baris untuk setiap penerbangan yang berangkat dari Portland International Airport (PDX) atau Seattle-Tacoma International Airport (SEA) pada tahun 2014 dan 2015.
Menjalankan kueri pada tabel ini semudah menggunakan metode .sql() pada SparkSession Anda. Metode ini menerima string yang berisi kueri dan mengembalikan sebuah DataFrame berisi hasilnya!
Jika Anda perhatikan, tabel flights hanya disebutkan di dalam kueri, bukan sebagai argumen ke metode mana pun. Ini karena tidak ada objek lokal di lingkungan Anda yang memuat data tersebut, sehingga tidak masuk akal untuk meneruskan tabel sebagai argumen.
Ingat, kami sudah membuat SparkSession bernama spark di ruang kerja Anda. (Nama ini tidak lagi my_spark karena kami yang membuatnya untuk Anda!)
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Petunjuk latihan
- Gunakan metode
.sql()untuk mengambil 10 baris pertama dari tabelflightsdan simpan hasilnya keflights10. Variabelquerysudah berisi kueri SQL yang sesuai. - Gunakan metode DataFrame
.show()untuk mencetakflights10.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Don't change this query
query = "FROM flights SELECT * LIMIT 10"
# Get the first 10 rows of flights
flights10 = ____
# Show the results
flights10.____