ComeçarComece de graça

Agregando em RDDs

Agora que você já fez análises com DataFrames no PySpark, vamos realizar rapidamente uma tarefa semelhante com um RDD. Usando o código fornecido, obtenha a soma dos valores de um RDD no PySpark.

Uma sessão Spark chamada spark já foi criada para você.

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Crie um RDD a partir do DataFrame fornecido.
  • Aplique a função Lambda fornecida às chaves do RDD.
  • Colete os resultados da agregação.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)

# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))

# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)

# Show the collected Results
print(rdd_aggregated.____())
Editar e executar o código