Agregando em RDDs
Agora que você já fez análises com DataFrames no PySpark, vamos realizar rapidamente uma tarefa semelhante com um RDD. Usando o código fornecido, obtenha a soma dos valores de um RDD no PySpark.
Uma sessão Spark chamada spark já foi criada para você.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Crie um RDD a partir do DataFrame fornecido.
- Aplique a função Lambda fornecida às chaves do RDD.
- Colete os resultados da agregação.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)
# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))
# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)
# Show the collected Results
print(rdd_aggregated.____())