O padrão conectar-trabalhar-desconectar
Trabalhar com sparklyr é muito parecido com trabalhar com dplyr quando você tem dados dentro de um banco de dados. Na prática, sparklyr converte seu código R em código SQL antes de enviá-lo ao Spark.
O fluxo de trabalho típico tem três etapas:
- Conectar ao Spark usando
spark_connect(). - Fazer algum trabalho.
- Fechar a conexão com o Spark usando
spark_disconnect().
Neste exercício, você vai fazer a tarefa mais simples possível: retornar a versão do Spark que está em execução, usando spark_version().
spark_connect() recebe uma URL que indica a localização do Spark. Para um cluster local (como o que você está executando), a URL deve ser "local". Para um cluster remoto (em outra máquina, geralmente um servidor de alto desempenho), a string de conexão será uma URL e uma porta para conectar.
spark_version() e spark_disconnect() recebem a conexão do Spark como único argumento.
Um alerta: conectar a um cluster leva alguns segundos, então não é prático conectar e desconectar o tempo todo. Embora você precise reconectar a cada exercício da DataCamp, quando incorporar sparklyr ao seu próprio fluxo de trabalho, geralmente é melhor manter a conexão aberta durante todo o período em que quiser trabalhar com o Spark.
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
- Carregue o pacote
sparklyrcomlibrary(). - Conecte ao Spark chamando
spark_connect(), com o argumentomaster = "local". Atribua o resultado aspark_conn. - Obtenha a versão do Spark usando
spark_version(), com o argumentosc = spark_conn. - Desconecte do Spark usando
spark_disconnect(), com o argumentosc = spark_conn.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load sparklyr
___
# Connect to your Spark cluster
spark_conn <- ___
# Print the version of Spark
___
# Disconnect from Spark
___