Como criar uma SparkSession

Neste exercício, você vai ativar um cluster Spark local usando todos os núcleos disponíveis. O cluster vai estar acessível através de um objeto SparkSession.

A classe ` SparkSession tem um atributo builder `, que é uma instância da classe ` Builder . A classeBuilder` mostra três métodos importantes que permitem:

especifique a localização do nó mestre;
dá um nome para o aplicativo (opcional); e
pega um SparkSession que já existe ou, se não tiver nenhum, cria um novo.

A classe ` SparkSession tem um atributo version ` que fornece a versão do Spark. Observação: A versão também pode ser acessada através do atributo __version__ no módulo pyspark.

Saiba mais sobre o “ SparkSession ” aqui.

Quando você terminar de usar o cluster, é uma boa ideia desligá-lo, o que vai liberar os recursos dele, deixando-os disponíveis para outros processos.

Anotações:

Pode ser útil revisar os slides das lições no painel Slides ao lado do IPython Shell.
A versão do Spark no exercício não é a mesma das aulas. A plataforma de exercícios foi atualizada para uma versão mais recente do Spark.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

Importe a classe SparkSession de pyspark.sql.
Crie um objeto SparkSession conectado a um cluster local. Use todos os núcleos disponíveis. Dá o nome de “ 'test' ” pro aplicativo.
Use o atributo “ version ” no objeto “ SparkSession ” para pegar a versão do Spark que está rolando no cluster. Observação: A versão pode ser diferente daquela usada na apresentação (ela é atualizada de vez em quando).
Desligue o cluster.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the SparkSession class
from ____ import ____

# Create SparkSession object
spark = SparkSession.builder \
                    .master(____) \
                    .____(____) \
                    .____()

# What version of Spark?
print(spark.____)

# Terminate the cluster
spark.____()

Editar e executar o código