Crear una SparkSession
En este ejercicio, pondrás en marcha un clúster Spark local utilizando todos los núcleos disponibles. Se podrá acceder al clúster a través de un objeto SparkSession
.
La clase SparkSession
tiene un atributo builder
, que es una instancia de la clase Builder
. La clase Builder
expone tres métodos importantes que te permiten:
- especifica la ubicación del nodo maestro;
- da un nombre a la solicitud (opcional); y
- recuperar un
SparkSession
existente o, si no hay ninguno, crear uno nuevo.
La clase SparkSession
tiene un atributo version
que proporciona la versión de Spark. Nota: También se puede acceder a la versión mediante el atributo __version__
del módulo pyspark
.
Más información sobre SparkSession
aquí.
Una vez que hayas terminado con el clúster, es una buena idea apagarlo, lo que liberará sus recursos, dejándolos disponibles para otros procesos.
Nota:: Puede que te resulte útil repasar las diapositivas de las lecciones en el panel Diapositivas situado junto a la Cáscara de Python.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Importa la clase
SparkSession
depyspark.sql
. - Crea un objeto
SparkSession
conectado a un cluster local. Utiliza todos los núcleos disponibles. Nombra la aplicación'test'
. - Utiliza el atributo
version
del objetoSparkSession
para recuperar la versión de Spark que se ejecuta en el clúster. Nota: La versión puede ser diferente de la que se utiliza en la presentación (se actualiza de vez en cuando). - Apaga el clúster.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import the SparkSession class
from ____ import ____
# Create SparkSession object
spark = SparkSession.builder \
.master(____) \
.____(____) \
.____()
# What version of Spark?
print(spark.____)
# Terminate the cluster
spark.____()