Ubah DataFrame Spark menjadi pandas
Misalkan Anda telah menjalankan sebuah kueri pada himpunan data yang sangat besar dan mengagregasinya menjadi sesuatu yang lebih mudah dikelola.
Terkadang masuk akal untuk kemudian mengambil tabel tersebut dan mengolahnya secara lokal menggunakan alat seperti pandas. Spark DataFrame memudahkan hal ini dengan metode .toPandas(). Memanggil metode ini pada sebuah Spark DataFrame akan mengembalikan pandas DataFrame yang bersesuaian. Sesederhana itu!
Kali ini, kueri menghitung jumlah penerbangan ke setiap bandara dari SEA dan PDX.
Ingat, sudah ada SparkSession bernama spark di ruang kerja Anda!
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Petunjuk latihan
- Jalankan kueri menggunakan metode
.sql(). Simpan hasilnya diflight_counts. - Gunakan metode
.toPandas()padaflight_countsuntuk membuatpandasDataFrame bernamapd_counts. - Cetak
.head()daripd_countske konsol.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"
# Run the query
flight_counts = ____
# Convert the results to a pandas DataFrame
pd_counts = ____
# Print the head of pd_counts
print(____)