ComeçarComece gratuitamente

Criando uma SparkSession

Neste exercício, você criará um cluster local do Spark usando todos os núcleos disponíveis. Você poderá acessar o cluster por meio de um objeto SparkSession.

A classe SparkSession tem um atributo builder, que é uma instância da classe Builder. A classe Builder expõe três métodos importantes que permitem a você:

  • especificar o local do nó mestre;
  • nomear o aplicativo (opcional); e
  • recupera um SparkSession existente ou, se não houver nenhum, cria um novo.

A classe SparkSession tem um atributo version que fornece a versão do Spark. Observação: A versão também pode ser acessada por meio do atributo __version__ no módulo pyspark.

Saiba mais sobre o site SparkSession aqui.

Quando você terminar de usar o cluster, é uma boa ideia desligá-lo, o que liberará seus recursos, tornando-os disponíveis para outros processos.

Observações:

  1. Você pode achar útil revisar os slides das lições no painel Slides, ao lado do IPython Shell.
  2. A versão do Spark no exercício não é a mesma das lições. A plataforma de exercícios foi atualizada para uma versão mais recente do Spark.

Este exercício faz parte do curso

Aprendizado de máquina com PySpark

Ver Curso

Instruções de exercício

  • Importe a classe SparkSession de pyspark.sql.
  • Crie um objeto SparkSession conectado a um cluster local. Use todos os núcleos disponíveis. Dê um nome ao aplicativo 'test'.
  • Use o atributo version no objeto SparkSession para recuperar a versão do Spark em execução no cluster. Observação: A versão pode ser diferente da usada na apresentação (ela é atualizada de tempos em tempos).
  • Desligue o cluster.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import the SparkSession class
from ____ import ____

# Create SparkSession object
spark = SparkSession.builder \
                    .master(____) \
                    .____(____) \
                    .____()

# What version of Spark?
print(spark.____)

# Terminate the cluster
spark.____()
Editar e executar código