Agregasi di RDD
Setelah Anda melakukan analitik dengan DataFrame di PySpark, mari kita lakukan tugas serupa secara singkat dengan RDD. Dengan menggunakan kode yang disediakan, dapatkan jumlah (sum) nilai dari sebuah RDD di PySpark.
Sesi Spark bernama spark sudah disiapkan untuk Anda.
Latihan ini merupakan bagian dari kursus
Pengantar PySpark
Instruksi latihan
- Buat RDD dari DataFrame yang disediakan.
- Terapkan Lambda function yang disediakan pada key dari RDD.
- Kumpulkan hasil agregasinya.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)
# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))
# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)
# Show the collected Results
print(rdd_aggregated.____())