ComeçarComece de graça

Como criar uma SparkSession

Neste exercício, você vai ativar um cluster Spark local usando todos os núcleos disponíveis. O cluster vai estar acessível através de um objeto SparkSession.

A classe ` SparkSession tem um atributo builder `, que é uma instância da classe ` Builder . A classeBuilder` mostra três métodos importantes que permitem:

  • especifique a localização do nó mestre;
  • dá um nome para o aplicativo (opcional); e
  • pega um SparkSession que já existe ou, se não tiver nenhum, cria um novo.

A classe ` SparkSession tem um atributo version ` que fornece a versão do Spark. Observação: A versão também pode ser acessada através do atributo __version__ no módulo pyspark.

Saiba mais sobre o “ SparkSessionaqui.

Quando você terminar de usar o cluster, é uma boa ideia desligá-lo, o que vai liberar os recursos dele, deixando-os disponíveis para outros processos.

Anotações:

  1. Pode ser útil revisar os slides das lições no painel Slides ao lado do IPython Shell.
  2. A versão do Spark no exercício não é a mesma das aulas. A plataforma de exercícios foi atualizada para uma versão mais recente do Spark.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Importe a classe SparkSession de pyspark.sql.
  • Crie um objeto SparkSession conectado a um cluster local. Use todos os núcleos disponíveis. Dá o nome de “ 'test' ” pro aplicativo.
  • Use o atributo “ version ” no objeto “ SparkSession ” para pegar a versão do Spark que está rolando no cluster. Observação: A versão pode ser diferente daquela usada na apresentação (ela é atualizada de vez em quando).
  • Desligue o cluster.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the SparkSession class
from ____ import ____

# Create SparkSession object
spark = SparkSession.builder \
                    .master(____) \
                    .____(____) \
                    .____()

# What version of Spark?
print(spark.____)

# Terminate the cluster
spark.____()
Editar e executar o código