Agregasi di RDD
Setelah Anda melakukan analitik dengan DataFrame di PySpark, mari kita lakukan tugas serupa secara singkat dengan RDD. Dengan menggunakan kode yang disediakan, dapatkan jumlah (sum) nilai dari sebuah RDD di PySpark.
Sesi Spark bernama spark sudah disiapkan untuk Anda.
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Buat RDD dari DataFrame yang disediakan.
- Terapkan Lambda function yang disediakan pada key dari RDD.
- Kumpulkan hasil agregasinya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)
# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))
# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)
# Show the collected Results
print(rdd_aggregated.____())