Como criar uma SparkSession
Neste exercício, você vai ativar um cluster Spark local usando todos os núcleos disponíveis. O cluster vai estar acessível através de um objeto SparkSession
.
A classe ` SparkSession
tem um atributo
builder
`, que é uma instância da classe ` Builder
. A classe
Builder` mostra três métodos importantes que permitem:
- especifique a localização do nó mestre;
- dá um nome para o aplicativo (opcional); e
- pega um
SparkSession
que já existe ou, se não tiver nenhum, cria um novo.
A classe ` SparkSession
tem um atributo
version
` que fornece a versão do Spark. Observação: A versão também pode ser acessada através do atributo __version__
no módulo pyspark
.
Saiba mais sobre o “ SparkSession
” aqui.
Quando você terminar de usar o cluster, é uma boa ideia desligá-lo, o que vai liberar os recursos dele, deixando-os disponíveis para outros processos.
Anotações:
- Pode ser útil revisar os slides das lições no painel Slides ao lado do IPython Shell.
- A versão do Spark no exercício não é a mesma das aulas. A plataforma de exercícios foi atualizada para uma versão mais recente do Spark.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Importe a classe
SparkSession
depyspark.sql
. - Crie um objeto
SparkSession
conectado a um cluster local. Use todos os núcleos disponíveis. Dá o nome de “'test'
” pro aplicativo. - Use o atributo “
version
” no objeto “SparkSession
” para pegar a versão do Spark que está rolando no cluster. Observação: A versão pode ser diferente daquela usada na apresentação (ela é atualizada de vez em quando). - Desligue o cluster.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the SparkSession class
from ____ import ____
# Create SparkSession object
spark = SparkSession.builder \
.master(____) \
.____(____) \
.____()
# What version of Spark?
print(spark.____)
# Terminate the cluster
spark.____()