ComenzarEmpieza gratis

Uso de DataFrames

La estructura de datos principal de Spark es el conjunto de datos distribuido resiliente (RDD). Se trata de un objeto de bajo nivel que permite a Spark hacer su magia repartiendo los datos entre varios nodos del clúster. Sin embargo, es complicado trabajar directamente con los RDD, así que en este curso usarás la abstracción Spark DataFrame, que se basa en los RDD.

El Spark DataFrame se diseñó para funcionar de forma muy similar a una tabla SQL (una tabla con variables en las columnas y observaciones en las filas). Los DataFrames no solo son más fáciles de entender, sino que también están mejor optimizados para operaciones complejas que los RDD.

Cuando empiezas a modificar y combinar columnas y filas de datos, hay muchas formas de llegar al mismo resultado, pero algunas suelen llevar mucho más tiempo que otras. Cuando usas RDD, depende del científico de datos encontrar la forma correcta de optimizar la consulta, ¡pero la implementación de DataFrame ya tiene gran parte de esta optimización incorporada!

Para empezar a trabajar con Spark DataFrame, primero tienes que crear un objeto SparkSession a partir de tu SparkContext. Puedes pensar en SparkContext como tu conexión con el clúster y en SparkSession como tu interfaz con esa conexión.

Recuerda que durante el resto de este curso tendrás disponible en tu espacio de trabajo un SparkSession llamado spark.

¿Cuál de las siguientes opciones es una ventaja de los DataFrames de Spark frente a los RDD?

Este ejercicio forma parte del curso

Fundamentos de PySpark

Ver curso

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio