Creación de RDDs
En PySpark, puedes crear un RDD (Resilient Distributed Dataset) de varias formas. Como ya conoces los DataFrames, lo configurarás partiendo de un DataFrame. Recuerda que ya tienes una SparkSession llamada spark en tu espacio de trabajo.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Crea un DataFrame a partir de la lista proporcionada y llámalo
df. - Convierte el DataFrame en un RDD.
- Recoge y muestra por pantalla el RDD resultante.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)
# Convert DataFrame to RDD
rdd = df.____
# Show the RDD's contents
rdd.____
print(rdd)