Uso de DataFrames

La estructura de datos central de Spark es el RDD (Resilient Distributed Dataset) o conjunto de datos distribuidos resistentes. Se trata de un objeto de bajo nivel que permite a Spark hacer su magia repartiendo los datos entre varios nodos del clúster. Sin embargo, es difícil trabajar directamente con RDDs, por lo que en este curso utilizarás la abstracción Spark DataFrame construida sobre RDDs.

El Spark DataFrame se diseñó para comportarse de forma muy parecida a una tabla SQL (una tabla con variables en las columnas y observaciones en las filas). No solo son más fáciles de entender, los DataFrames también están más optimizados para operaciones complicadas que RDDs.

Cuando empiezas a modificar y combinar columnas y filas de datos, hay muchas formas de llegar al mismo resultado, pero algunas suelen llevar mucho más tiempo que otras. Cuando se utiliza RDDs, depende del científico de datos averiguar la forma correcta de optimizar la consulta, ¡pero la implementación de DataFrame tiene gran parte de esta optimización incorporada!

Para empezar a trabajar con Spark DataFrame, primero tienes que crear un objeto SparkSession a partir de tu SparkContext. Puedes pensar en SparkContext como tu conexión con el clúster y en SparkSession como tu interfaz con esa conexión.

Recuerda que durante el resto de este curso tendrás disponible en tu espacio de trabajo un SparkSession llamado spark.

¿Cuál de las siguientes es una ventaja de Spark DataFrames sobre RDDs?

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio