BaşlayınÜcretsiz başlayın

RDD'lerde toplama

Artık PySpark'ta DataFrame'lerle analiz yaptığın için, benzer bir işi kısaca bir RDD ile yapalım. Verilen kodu kullanarak, PySpark'ta bir RDD'nin değerlerinin toplamını elde et.

Senin için spark adlı bir Spark oturumu zaten oluşturuldu.

Bu egzersiz, kursun bir parçasıdır

PySpark'e Giriş

Kursa Göz Atın

Egzersiz talimatları

  • Verilen DataFrame'den bir RDD oluştur.
  • Verilen Lambda fonksiyonunu RDD'nin anahtarlarına uygula.
  • Toplamanın sonuçlarını topla.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)

# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))

# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)

# Show the collected Results
print(rdd_aggregated.____())
Kodu Düzenle ve Çalıştır