El patrón conectar-trabajar-desconectar
Trabajar con sparklyr se parece mucho a trabajar con dplyr cuando tienes datos dentro de una base de datos. De hecho, sparklyr convierte tu código de R en código SQL antes de enviarlo a Spark.
El flujo de trabajo típico tiene tres pasos:
- Conectarte a Spark usando
spark_connect(). - Hacer algo de trabajo.
- Cerrar la conexión a Spark usando
spark_disconnect().
En este ejercicio, harás la tarea más simple posible: devolver la versión de Spark que se está ejecutando, usando spark_version().
spark_connect() recibe una URL que indica la ubicación de Spark. Para un clúster local (como el que estás ejecutando), la URL debe ser "local". Para un clúster remoto (en otra máquina, normalmente un servidor de alto rendimiento), la cadena de conexión será una URL y un puerto al que conectarse.
spark_version() y spark_disconnect() reciben la conexión a Spark como único argumento.
Una advertencia. Conectarse a un clúster tarda varios segundos, así que no es práctico conectar y desconectar continuamente. Aunque necesitas reconectarte en cada ejercicio de DataCamp, cuando incorpores sparklyr a tu propio flujo de trabajo, lo mejor suele ser mantener la conexión abierta durante todo el tiempo que quieras trabajar con Spark.
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
- Carga el paquete
sparklyrconlibrary(). - Conéctate a Spark llamando a
spark_connect(), con el argumentomaster = "local". Asigna el resultado aspark_conn. - Obtén la versión de Spark usando
spark_version(), con el argumentosc = spark_conn. - Desconéctate de Spark usando
spark_disconnect(), con el argumentosc = spark_conn.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load sparklyr
___
# Connect to your Spark cluster
spark_conn <- ___
# Print the version of Spark
___
# Disconnect from Spark
___