Comece agoraComece grátis

Criando RDDs

No PySpark, você pode criar um RDD (Resilient Distributed Dataset) de algumas maneiras diferentes. Como você já está familiarizado com DataFrames, vamos configurar isso usando um DataFrame. Lembre-se: já existe um SparkSession chamado spark no seu ambiente!

Este exercicio faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercicio

  • Crie um DataFrame a partir da lista fornecida chamado df.
  • Converta o DataFrame em um RDD.
  • Faça o collect e imprima o RDD resultante.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Editar e Executar Código