Como usar o Spark no Python
A primeira etapa para usar o Spark é conectar-se a um cluster.
Na prática, o cluster será hospedado em uma máquina remota conectada a todos os outros nós. Haverá um computador, chamado de mestre, que gerencia a divisão dos dados e os cálculos. O mestre está conectado aos demais computadores do cluster, que são chamados de nós de trabalho. O mestre envia dados e cálculos aos nós de trabalho para serem executados, e eles enviam seus resultados de volta ao mestre.
Quando você está começando a usar o Spark, é mais simples executar um cluster localmente. Portanto, neste curso, em vez de se conectar a outro computador, todos os cálculos serão executados nos servidores do DataCamp em um cluster simulado.
Criar a conexão é tão simples quanto criar uma instância da classe SparkContext
. O construtor da classe recebe alguns argumentos opcionais que permitem especificar os atributos do cluster ao qual você está se conectando.
Um objeto com todos esses atributos pode ser criado com o construtor SparkConf()
. Dê uma olhada na documentação para ver todos os detalhes!
No restante deste curso, você terá um SparkContext
chamado sc
já disponível em seu espaço de trabalho.
Como você se conecta a um cluster do Spark no PySpark?
Este exercício faz parte do curso
Introdução ao PySpark
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
