De RDD a DataFrame
Igual que los RDD, los DataFrames son estructuras de datos inmutables y distribuidas en Spark. Aunque los RDD son una estructura de datos fundamental en Spark, trabajar con datos en DataFrames es más sencillo que en RDD. Por lo tanto, es necesario comprender cómo convertir un RDD en un DataFrame.
En este ejercicio crearás primero un RDD utilizando sample_list
, que ya se te ha proporcionado. Este RDD contiene una lista de tuplas ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26)
, en la que cada tupla contiene el nombre de la persona y su edad. A continuación, crearás un DataFrame utilizando el RDD y el esquema (que es la lista de "Name" y "Age") y, finalmente, confirmarás que la salida sea un DataFrame de PySpark.
Recuerda que ya tienes sc
de SparkContext y spark
de SparkSession disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Crea un RDD a partir de
sample_list
. - Crea un DataFrame de PySpark utilizando el RDD y el esquema anteriores.
- Confirma la salida como DataFrame de PySpark.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create an RDD from the list
rdd = sc.____(sample_list)
# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])
# Check the type of names_df
print("The type of names_df is", ____(names_df))