ComenzarEmpieza gratis

Creación de RDDs

En PySpark, puedes crear un RDD (Resilient Distributed Dataset) de varias formas. Como ya conoces los DataFrames, lo configurarás partiendo de un DataFrame. Recuerda que ya tienes una SparkSession llamada spark en tu espacio de trabajo.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Crea un DataFrame a partir de la lista proporcionada y llámalo df.
  • Convierte el DataFrame en un RDD.
  • Recoge y muestra por pantalla el RDD resultante.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Editar y ejecutar código