Executando arquivos do PySpark
Neste exercício, você executará um arquivo PySpark usando spark-submit
. Essa ferramenta pode ajudar você a enviar seu aplicativo para um spark cluster.
Para este exercício, você trabalhará com uma instância local do Spark executada em 4 threads. O arquivo que você precisa enviar está em /home/repl/spark-script.py
. Sinta-se à vontade para ler o arquivo:
cat /home/repl/spark-script.py
Você pode usar o site spark-submit
da seguinte forma:
spark-submit \
--master local[4] \
/home/repl/spark-script.py
Qual é o resultado disso? Observe que pode levar alguns segundos para que você obtenha os resultados.
Este exercício faz parte do curso
Introdução à engenharia de dados
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
