ComeçarComece gratuitamente

Afinal, o que faz o Spark?

O Spark é uma plataforma para computação em cluster. O Spark permite distribuir dados e operações de computação em clusters com vários nós (pense em cada nó como um computador separado). A divisão dos dados facilita o trabalho com conjuntos de dados muito grandes, pois cada nó trabalha apenas com uma pequena quantidade de dados.

Como cada nó trabalha com seu próprio subconjunto do total de dados, ele também realiza uma parte do total de cálculos necessários, de modo que tanto o processamento de dados quanto a computação são realizados em paralelo nos nós do cluster. É verdade que a computação paralela pode tornar certos tipos de tarefas de programação muito mais rápidos.

No entanto, com mais capacidade de computação, vem uma maior complexidade.

Decidir se o Spark é ou não a melhor solução para o seu problema requer um pouco de experiência, mas você pode considerar questões como:

  • A quantidade de dados é grande demais para trabalhar em uma única máquina?
  • Os cálculos podem ser feitos facilmente em paralelo?

Está animado para saber mais sobre o Spark?

Este exercício faz parte do curso

Introdução ao PySpark

Ver Curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Comece o exercício