Criando uma SparkSession
Neste exercício, você criará um cluster local do Spark usando todos os núcleos disponíveis. Você poderá acessar o cluster por meio de um objeto SparkSession
.
A classe SparkSession
tem um atributo builder
, que é uma instância da classe Builder
. A classe Builder
expõe três métodos importantes que permitem a você:
- especificar o local do nó mestre;
- nomear o aplicativo (opcional); e
- recupera um
SparkSession
existente ou, se não houver nenhum, cria um novo.
A classe SparkSession
tem um atributo version
que fornece a versão do Spark. Observação: A versão também pode ser acessada por meio do atributo __version__
no módulo pyspark
.
Saiba mais sobre o site SparkSession
aqui.
Quando você terminar de usar o cluster, é uma boa ideia desligá-lo, o que liberará seus recursos, tornando-os disponíveis para outros processos.
Observações:
- Você pode achar útil revisar os slides das lições no painel Slides, ao lado do IPython Shell.
- A versão do Spark no exercício não é a mesma das lições. A plataforma de exercícios foi atualizada para uma versão mais recente do Spark.
Este exercício faz parte do curso
Aprendizado de máquina com PySpark
Instruções de exercício
- Importe a classe
SparkSession
depyspark.sql
. - Crie um objeto
SparkSession
conectado a um cluster local. Use todos os núcleos disponíveis. Dê um nome ao aplicativo'test'
. - Use o atributo
version
no objetoSparkSession
para recuperar a versão do Spark em execução no cluster. Observação: A versão pode ser diferente da usada na apresentação (ela é atualizada de tempos em tempos). - Desligue o cluster.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import the SparkSession class
from ____ import ____
# Create SparkSession object
spark = SparkSession.builder \
.master(____) \
.____(____) \
.____()
# What version of Spark?
print(spark.____)
# Terminate the cluster
spark.____()