Agregaciones en RDDs
Ahora que ya has hecho análisis con DataFrames en PySpark, vamos a realizar brevemente una tarea similar con un RDD. Con el código proporcionado, obtén la suma de los valores de un RDD en PySpark.
Ya tienes creada una sesión de Spark llamada spark.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Crea un RDD a partir del DataFrame proporcionado.
- Aplica la función Lambda proporcionada a las claves del RDD.
- Recoge los resultados de la agregación.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)
# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))
# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)
# Show the collected Results
print(rdd_aggregated.____())