RDD'lerde toplama
Artık PySpark'ta DataFrame'lerle analiz yaptığın için, benzer bir işi kısaca bir RDD ile yapalım. Verilen kodu kullanarak, PySpark'ta bir RDD'nin değerlerinin toplamını elde et.
Senin için spark adlı bir Spark oturumu zaten oluşturuldu.
Bu egzersiz
PySpark'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
- Verilen DataFrame'den bir RDD oluştur.
- Verilen Lambda fonksiyonunu RDD'nin anahtarlarına uygula.
- Toplamanın sonuçlarını topla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)
# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))
# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)
# Show the collected Results
print(rdd_aggregated.____())