Executando arquivos PySpark
Neste exercício, você vai executar um arquivo PySpark usando spark-submit. Essa ferramenta ajuda você a enviar sua aplicação para um cluster Spark.
Para este exercício, você vai trabalhar com uma instância local do Spark rodando em 4 threads. O arquivo que você precisa enviar está em /home/repl/spark-script.py. Fique à vontade para ler o arquivo:
cat /home/repl/spark-script.py
Você pode usar spark-submit assim:
spark-submit \
--master local[4] \
/home/repl/spark-script.py
O que isso retorna? Observe que pode levar alguns segundos para você obter os resultados.
Este exercício faz parte do curso
Introdução à Engenharia de Dados
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício