Uso de Spark en Python
El primer paso para utilizar Spark es conectarse a un clúster.
En la práctica, el clúster se alojará en una máquina remota que esté conectada a todos los demás nodos. Habrá un ordenador, llamado maestro, que gestionará la división de los datos y los cálculos. El maestro está conectado al resto de ordenadores del clúster, que se denominan trabajadores. El maestro envía a los trabajadores datos y cálculos para que los ejecuten, y éstos envían sus resultados al maestro.
Cuando estás empezando con Spark, es más sencillo ejecutar un clúster localmente. Así, para este curso, en lugar de conectarse a otro ordenador, todos los cálculos se ejecutarán en los servidores de DataCamp en un clúster simulado.
Crear la conexión es tan sencillo como crear una instancia de la clase SparkContext
. El constructor de la clase toma algunos argumentos opcionales que te permiten especificar los atributos del clúster al que te conectas.
Se puede crear un objeto que contenga todos estos atributos con el constructor SparkConf()
. ¡Echa un vistazo a la documentación para conocer todos los detalles!
Para el resto de este curso tendrás un SparkContext
llamado sc
ya disponible en tu espacio de trabajo.
¿Cómo se conecta a un clúster Spark desde PySpark?
Este ejercicio forma parte del curso
Introducción a PySpark
Ejercicio interactivo práctico
Pon en práctica la teoría con uno de nuestros ejercicios interactivos
