Como criar uma SparkSession
Neste exercício, você vai ativar um cluster Spark local usando todos os núcleos disponíveis. O cluster vai estar acessível através de um objeto SparkSession.
A classe ` SparkSession tem um atributo builder `, que é uma instância da classe ` Builder . A classeBuilder` mostra três métodos importantes que permitem:
- especifique a localização do nó mestre;
- dá um nome para o aplicativo (opcional); e
- pega um
SparkSessionque já existe ou, se não tiver nenhum, cria um novo.
A classe ` SparkSession tem um atributo version ` que fornece a versão do Spark. Observação: A versão também pode ser acessada através do atributo __version__ no módulo pyspark.
Saiba mais sobre o “ SparkSession ” aqui.
Quando você terminar de usar o cluster, é uma boa ideia desligá-lo, o que vai liberar os recursos dele, deixando-os disponíveis para outros processos.
Anotações:
- Pode ser útil revisar os slides das lições no painel Slides ao lado do IPython Shell.
- A versão do Spark no exercício não é a mesma das aulas. A plataforma de exercícios foi atualizada para uma versão mais recente do Spark.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Importe a classe
SparkSessiondepyspark.sql. - Crie um objeto
SparkSessionconectado a um cluster local. Use todos os núcleos disponíveis. Dá o nome de “'test'” pro aplicativo. - Use o atributo “
version” no objeto “SparkSession” para pegar a versão do Spark que está rolando no cluster. Observação: A versão pode ser diferente daquela usada na apresentação (ela é atualizada de vez em quando). - Desligue o cluster.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the SparkSession class
from ____ import ____
# Create SparkSession object
spark = SparkSession.builder \
.master(____) \
.____(____) \
.____()
# What version of Spark?
print(spark.____)
# Terminate the cluster
spark.____()