ComeçarComece de graça

Criando RDDs

No PySpark, você pode criar um RDD (Resilient Distributed Dataset) de algumas maneiras diferentes. Como você já está familiarizado com DataFrames, vamos configurar isso usando um DataFrame. Lembre-se: já existe um SparkSession chamado spark no seu ambiente!

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Crie um DataFrame a partir da lista fornecida chamado df.
  • Converta o DataFrame em um RDD.
  • Faça o collect e imprima o RDD resultante.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Editar e executar o código