ComeçarComece de graça

Executando arquivos PySpark

Neste exercício, você vai executar um arquivo PySpark usando spark-submit. Essa ferramenta ajuda você a enviar sua aplicação para um cluster Spark.

Para este exercício, você vai trabalhar com uma instância local do Spark rodando em 4 threads. O arquivo que você precisa enviar está em /home/repl/spark-script.py. Fique à vontade para ler o arquivo:

cat /home/repl/spark-script.py

Você pode usar spark-submit assim:

spark-submit \
  --master local[4] \
  /home/repl/spark-script.py

O que isso retorna? Observe que pode levar alguns segundos para você obter os resultados.

Este exercício faz parte do curso

Introdução à Engenharia de Dados

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício