Comece agoraComece grátis

Agregando em RDDs

Agora que você já fez análises com DataFrames no PySpark, vamos realizar rapidamente uma tarefa semelhante com um RDD. Usando o código fornecido, obtenha a soma dos valores de um RDD no PySpark.

Uma sessão Spark chamada spark já foi criada para você.

Este exercicio faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercicio

  • Crie um RDD a partir do DataFrame fornecido.
  • Aplique a função Lambda fornecida às chaves do RDD.
  • Colete os resultados da agregação.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)

# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))

# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)

# Show the collected Results
print(rdd_aggregated.____())
Editar e Executar Código