Criando RDDs
No PySpark, você pode criar um RDD (Resilient Distributed Dataset) de algumas maneiras diferentes. Como você já está familiarizado com DataFrames, vamos configurar isso usando um DataFrame. Lembre-se: já existe um SparkSession chamado spark no seu ambiente!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Crie um DataFrame a partir da lista fornecida chamado
df. - Converta o DataFrame em um RDD.
- Faça o collect e imprima o RDD resultante.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)
# Convert DataFrame to RDD
rdd = df.____
# Show the RDD's contents
rdd.____
print(rdd)