Mulai sekarangMulai gratis

Ubah DataFrame Spark menjadi pandas

Misalkan Anda telah menjalankan sebuah kueri pada himpunan data yang sangat besar dan mengagregasinya menjadi sesuatu yang lebih mudah dikelola.

Terkadang masuk akal untuk kemudian mengambil tabel tersebut dan mengolahnya secara lokal menggunakan alat seperti pandas. Spark DataFrame memudahkan hal ini dengan metode .toPandas(). Memanggil metode ini pada sebuah Spark DataFrame akan mengembalikan pandas DataFrame yang bersesuaian. Sesederhana itu!

Kali ini, kueri menghitung jumlah penerbangan ke setiap bandara dari SEA dan PDX.

Ingat, sudah ada SparkSession bernama spark di ruang kerja Anda!

Latihan ini merupakan bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Instruksi latihan

  • Jalankan kueri menggunakan metode .sql(). Simpan hasilnya di flight_counts.
  • Gunakan metode .toPandas() pada flight_counts untuk membuat pandas DataFrame bernama pd_counts.
  • Cetak .head() dari pd_counts ke konsol.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"

# Run the query
flight_counts = ____

# Convert the results to a pandas DataFrame
pd_counts = ____

# Print the head of pd_counts
print(____)
Edit dan Jalankan Kode