Comece agoraComece grátis

Executando arquivos PySpark

Neste exercício, você vai executar um arquivo PySpark usando spark-submit. Essa ferramenta ajuda você a enviar sua aplicação para um cluster Spark.

Para este exercício, você vai trabalhar com uma instância local do Spark rodando em 4 threads. O arquivo que você precisa enviar está em /home/repl/spark-script.py. Fique à vontade para ler o arquivo:

cat /home/repl/spark-script.py

Você pode usar spark-submit assim:

spark-submit \
  --master local[4] \
  /home/repl/spark-script.py

O que isso retorna? Observe que pode levar alguns segundos para você obter os resultados.

Este exercicio faz parte do curso

Introdução à Engenharia de Dados

Ver curso

exercicio interativo prático

Transforme teoria em prática com um dos nossos exercicio interativos

Iniciar exercicio