BaşlayınÜcretsiz Başlayın

Bir Spark DataFrame'ini pandas'a dönüştür

Diyelim ki çok büyük bir veri kümesi üzerinde bir sorgu çalıştırdın ve sonucu daha yönetilebilir bir hale getirdin.

Bazen bu tabloyu alıp pandas gibi bir araçla yerelde çalışmak mantıklıdır. Spark DataFrame'leri bunu .toPandas() yöntemiyle kolaylaştırır. Bu yöntemi bir Spark DataFrame'i üzerinde çağırmak, karşılık gelen pandas DataFrame'ini döndürür. Bu kadar basit!

Bu seferki sorgu, SEA ve PDX'den her bir havaalanına giden uçuşların sayısını hesaplıyor.

Unutma, çalışma alanında zaten spark adlı bir SparkSession var!

Bu egzersiz

PySpark Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • .sql() yöntemini kullanarak sorguyu çalıştır. Sonucu flight_counts içinde sakla.
  • flight_counts üzerinde .toPandas() yöntemini kullanarak pd_counts adlı bir pandas DataFrame'i oluştur.
  • pd_counts'un .head() çıktısını konsola yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"

# Run the query
flight_counts = ____

# Convert the results to a pandas DataFrame
pd_counts = ____

# Print the head of pd_counts
print(____)
Kodu Düzenle ve Çalıştır