Ubah DataFrame Spark menjadi pandas
Misalkan Anda telah menjalankan sebuah kueri pada himpunan data yang sangat besar dan mengagregasinya menjadi sesuatu yang lebih mudah dikelola.
Terkadang masuk akal untuk kemudian mengambil tabel tersebut dan mengolahnya secara lokal menggunakan alat seperti pandas. Spark DataFrame memudahkan hal ini dengan metode .toPandas(). Memanggil metode ini pada sebuah Spark DataFrame akan mengembalikan pandas DataFrame yang bersesuaian. Sesederhana itu!
Kali ini, kueri menghitung jumlah penerbangan ke setiap bandara dari SEA dan PDX.
Ingat, sudah ada SparkSession bernama spark di ruang kerja Anda!
Latihan ini merupakan bagian dari kursus
Dasar-Dasar PySpark
Instruksi latihan
- Jalankan kueri menggunakan metode
.sql(). Simpan hasilnya diflight_counts. - Gunakan metode
.toPandas()padaflight_countsuntuk membuatpandasDataFrame bernamapd_counts. - Cetak
.head()daripd_countske konsol.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"
# Run the query
flight_counts = ____
# Convert the results to a pandas DataFrame
pd_counts = ____
# Print the head of pd_counts
print(____)