MulaiMulai sekarang secara gratis

Agregasi di RDD

Setelah Anda melakukan analitik dengan DataFrame di PySpark, mari kita lakukan tugas serupa secara singkat dengan RDD. Dengan menggunakan kode yang disediakan, dapatkan jumlah (sum) nilai dari sebuah RDD di PySpark.

Sesi Spark bernama spark sudah disiapkan untuk Anda.

Latihan ini adalah bagian dari kursus

Pengantar PySpark

Lihat Kursus

Petunjuk latihan

  • Buat RDD dari DataFrame yang disediakan.
  • Terapkan Lambda function yang disediakan pada key dari RDD.
  • Kumpulkan hasil agregasinya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)

# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))

# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)

# Show the collected Results
print(rdd_aggregated.____())
Edit dan Jalankan Kode