Feitos um para o outro
R permite que você escreva código de análise de dados rapidamente. Com um pouco de cuidado, você também pode deixar seu código fácil de ler, o que significa que vai ser fácil de manter. Em muitos casos, R também é suficientemente rápido para executar seu código.
Infelizmente, R exige que todos os seus dados sejam analisados na memória (RAM), em uma única máquina. Isso limita a quantidade de dados que você consegue analisar usando R. Existem algumas soluções para esse problema, incluindo o uso de Spark.
Spark é uma plataforma de computação em cluster de código aberto. Isso significa que você pode distribuir seus dados e computações entre várias máquinas, permitindo analisar praticamente uma quantidade ilimitada de dados. As duas tecnologias se complementam muito. Ao usar R e Spark juntos, você pode escrever código rápido e também executar código rápido!
sparklyr é um pacote R que permite escrever código em R para trabalhar com dados em um cluster Spark. Ele tem uma interface dplyr, o que significa que você pode escrever (mais ou menos) o mesmo código em estilo dplyr, esteja você trabalhando com dados na sua máquina ou em um cluster Spark.
Grite se você quer ir mais rápido!
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício