El patrón conectar-trabajar-desconectar

Trabajar con sparklyr se parece mucho a trabajar con dplyr cuando tienes datos dentro de una base de datos. De hecho, sparklyr convierte tu código de R en código SQL antes de enviarlo a Spark.

El flujo de trabajo típico tiene tres pasos:

Conectarte a Spark usando spark_connect().
Hacer algo de trabajo.
Cerrar la conexión a Spark usando spark_disconnect().

En este ejercicio, harás la tarea más simple posible: devolver la versión de Spark que se está ejecutando, usando spark_version().

spark_connect() recibe una URL que indica la ubicación de Spark. Para un clúster local (como el que estás ejecutando), la URL debe ser "local". Para un clúster remoto (en otra máquina, normalmente un servidor de alto rendimiento), la cadena de conexión será una URL y un puerto al que conectarse.

spark_version() y spark_disconnect() reciben la conexión a Spark como único argumento.

Una advertencia. Conectarse a un clúster tarda varios segundos, así que no es práctico conectar y desconectar continuamente. Aunque necesitas reconectarte en cada ejercicio de DataCamp, cuando incorpores sparklyr a tu propio flujo de trabajo, lo mejor suele ser mantener la conexión abierta durante todo el tiempo que quieras trabajar con Spark.

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Carga el paquete sparklyr con library().
Conéctate a Spark llamando a spark_connect(), con el argumento master = "local". Asigna el resultado a spark_conn.
Obtén la versión de Spark usando spark_version(), con el argumento sc = spark_conn.
Desconéctate de Spark usando spark_disconnect(), con el argumento sc = spark_conn.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load sparklyr
___

# Connect to your Spark cluster
spark_conn <- ___

# Print the version of Spark
___

# Disconnect from Spark
___

Editar y ejecutar código