Como criar uma SparkSession
Neste exercício, você criará um cluster local do Spark usando todos os núcleos disponíveis. Você poderá acessar o cluster por meio de um objeto SparkSession.
A classe SparkSession tem um atributo builder, que é uma instância da classe Builder. A classe Builder expõe três métodos importantes que permitem a você:
- especificar o local do nó mestre;
- nomear o aplicativo (opcional); e
- recupera um
SparkSessionexistente ou, se não houver nenhum, cria um novo.
A classe SparkSession tem um atributo version que fornece a versão do Spark. Observação: A versão também pode ser acessada por meio do atributo __version__ no módulo pyspark.
Saiba mais sobre SparkSession aqui.
Quando você terminar de usar o cluster, é uma boa ideia desligá-lo, o que liberará seus recursos, tornando-os disponíveis para outros processos.
Anotações:
- Você pode achar útil revisar os slides das lições no painel Slides, ao lado do IPython Shell.
- A versão do Spark no exercício não é a mesma que você vê nas lições. A plataforma de exercícios foi atualizada para uma versão mais recente do Spark.
Este exercício faz parte do curso
Machine learning com PySpark
Instruções do exercício
- Importe a classe
SparkSessiondepyspark.sql. - Crie um objeto
SparkSessionconectado a um cluster local. Use todos os núcleos disponíveis. Dê um nome ao aplicativo'test'. - Use o atributo
versionno objetoSparkSessionpara recuperar a versão do Spark em execução no cluster. Observação: A versão pode ser diferente da usada na apresentação (ela é atualizada de tempos em tempos). - Desligue o cluster.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the SparkSession class
from ____ import ____
# Create SparkSession object
spark = SparkSession.builder \
.master(____) \
.____(____) \
.____()
# What version of Spark?
print(spark.____)
# Terminate the cluster
spark.____()