MulaiMulai sekarang secara gratis

Ubah DataFrame Spark menjadi pandas

Misalkan Anda telah menjalankan sebuah kueri pada himpunan data yang sangat besar dan mengagregasinya menjadi sesuatu yang lebih mudah dikelola.

Terkadang masuk akal untuk kemudian mengambil tabel tersebut dan mengolahnya secara lokal menggunakan alat seperti pandas. Spark DataFrame memudahkan hal ini dengan metode .toPandas(). Memanggil metode ini pada sebuah Spark DataFrame akan mengembalikan pandas DataFrame yang bersesuaian. Sesederhana itu!

Kali ini, kueri menghitung jumlah penerbangan ke setiap bandara dari SEA dan PDX.

Ingat, sudah ada SparkSession bernama spark di ruang kerja Anda!

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Petunjuk latihan

  • Jalankan kueri menggunakan metode .sql(). Simpan hasilnya di flight_counts.
  • Gunakan metode .toPandas() pada flight_counts untuk membuat pandas DataFrame bernama pd_counts.
  • Cetak .head() dari pd_counts ke konsol.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"

# Run the query
flight_counts = ____

# Convert the results to a pandas DataFrame
pd_counts = ____

# Print the head of pd_counts
print(____)
Edit dan Jalankan Kode