O padrão conectar-trabalhar-desconectar

Trabalhar com sparklyr é muito parecido com trabalhar com dplyr quando você tem dados dentro de um banco de dados. Na prática, sparklyr converte seu código R em código SQL antes de enviá-lo ao Spark.

O fluxo de trabalho típico tem três etapas:

Conectar ao Spark usando spark_connect().
Fazer algum trabalho.
Fechar a conexão com o Spark usando spark_disconnect().

Neste exercício, você vai fazer a tarefa mais simples possível: retornar a versão do Spark que está em execução, usando spark_version().

spark_connect() recebe uma URL que indica a localização do Spark. Para um cluster local (como o que você está executando), a URL deve ser "local". Para um cluster remoto (em outra máquina, geralmente um servidor de alto desempenho), a string de conexão será uma URL e uma porta para conectar.

spark_version() e spark_disconnect() recebem a conexão do Spark como único argumento.

Um alerta: conectar a um cluster leva alguns segundos, então não é prático conectar e desconectar o tempo todo. Embora você precise reconectar a cada exercício da DataCamp, quando incorporar sparklyr ao seu próprio fluxo de trabalho, geralmente é melhor manter a conexão aberta durante todo o período em que quiser trabalhar com o Spark.

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

Carregue o pacote sparklyr com library().
Conecte ao Spark chamando spark_connect(), com o argumento master = "local". Atribua o resultado a spark_conn.
Obtenha a versão do Spark usando spark_version(), com o argumento sc = spark_conn.
Desconecte do Spark usando spark_disconnect(), com o argumento sc = spark_conn.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load sparklyr
___

# Connect to your Spark cluster
spark_conn <- ___

# Print the version of Spark
___

# Disconnect from Spark
___

Editar e executar o código