ComeçarComece gratuitamente

Como usar o Spark no Python

A primeira etapa para usar o Spark é conectar-se a um cluster.

Na prática, o cluster será hospedado em uma máquina remota conectada a todos os outros nós. Haverá um computador, chamado de mestre, que gerencia a divisão dos dados e os cálculos. O mestre está conectado aos demais computadores do cluster, que são chamados de nós de trabalho. O mestre envia dados e cálculos aos nós de trabalho para serem executados, e eles enviam seus resultados de volta ao mestre.

Quando você está começando a usar o Spark, é mais simples executar um cluster localmente. Portanto, neste curso, em vez de se conectar a outro computador, todos os cálculos serão executados nos servidores do DataCamp em um cluster simulado.

Criar a conexão é tão simples quanto criar uma instância da classe SparkContext. O construtor da classe recebe alguns argumentos opcionais que permitem especificar os atributos do cluster ao qual você está se conectando.

Um objeto com todos esses atributos pode ser criado com o construtor SparkConf(). Dê uma olhada na documentação para ver todos os detalhes!

No restante deste curso, você terá um SparkContext chamado sc já disponível em seu espaço de trabalho.

Como você se conecta a um cluster do Spark no PySpark?

Este exercício faz parte do curso

Introdução ao PySpark

Ver Curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Comece o exercício