Bir Spark DataFrame'ini pandas'a dönüştür
Diyelim ki çok büyük bir veri kümesi üzerinde bir sorgu çalıştırdın ve sonucu daha yönetilebilir bir hale getirdin.
Bazen bu tabloyu alıp pandas gibi bir araçla yerelde çalışmak mantıklıdır. Spark DataFrame'leri bunu .toPandas() yöntemiyle kolaylaştırır. Bu yöntemi bir Spark DataFrame'i üzerinde çağırmak, karşılık gelen pandas DataFrame'ini döndürür. Bu kadar basit!
Bu seferki sorgu, SEA ve PDX'den her bir havaalanına giden uçuşların sayısını hesaplıyor.
Unutma, çalışma alanında zaten spark adlı bir SparkSession var!
Bu egzersiz, kursun bir parçasıdır
PySpark Temelleri
Egzersiz talimatları
.sql()yöntemini kullanarak sorguyu çalıştır. Sonucuflight_countsiçinde sakla.flight_countsüzerinde.toPandas()yöntemini kullanarakpd_countsadlı birpandasDataFrame'i oluştur.pd_counts'un.head()çıktısını konsola yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"
# Run the query
flight_counts = ____
# Convert the results to a pandas DataFrame
pd_counts = ____
# Print the head of pd_counts
print(____)