Bir Spark DataFrame'ini pandas'a dönüştür
Diyelim ki çok büyük bir veri kümesi üzerinde bir sorgu çalıştırdın ve sonucu daha yönetilebilir bir hale getirdin.
Bazen bu tabloyu alıp pandas gibi bir araçla yerelde çalışmak mantıklıdır. Spark DataFrame'leri bunu .toPandas() yöntemiyle kolaylaştırır. Bu yöntemi bir Spark DataFrame'i üzerinde çağırmak, karşılık gelen pandas DataFrame'ini döndürür. Bu kadar basit!
Bu seferki sorgu, SEA ve PDX'den her bir havaalanına giden uçuşların sayısını hesaplıyor.
Unutma, çalışma alanında zaten spark adlı bir SparkSession var!
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırEgzersiz talimatları
.sql()yöntemini kullanarak sorguyu çalıştır. Sonucuflight_countsiçinde sakla.flight_countsüzerinde.toPandas()yöntemini kullanarakpd_countsadlı birpandasDataFrame'i oluştur.pd_counts'un.head()çıktısını konsola yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"
# Run the query
flight_counts = ____
# Convert the results to a pandas DataFrame
pd_counts = ____
# Print the head of pd_counts
print(____)