ComenzarEmpieza gratis

Creación de SparkSession

En este ejercicio, pondrás en marcha un clúster local de Spark utilizando todos los núcleos disponibles. Se podrá acceder al clúster a través de un objeto SparkSession.

La clase SparkSession tiene un atributo builder, que es una instancia de la clase Builder. La clase Builder expone tres métodos importantes que te permiten:

  • especifica la ubicación del nodo maestro;
  • dar un nombre a la solicitud (opcional); y
  • recuperar un SparkSession existente o, si no hay ninguno, crear uno nuevo.

La clase SparkSession tiene un atributo version que indica la versión de Spark. Nota: También se puede acceder a la versión a través del atributo __version__ del módulo pyspark.

Más información sobre SparkSession aquí.

Una vez que hayas terminado con el clúster, es una buena idea apagarlo, lo que liberará sus recursos, dejándolos disponibles para otros procesos.

notas:

  1. Puede que te resulte útil revisar las diapositivas de las lecciones en el panel Diapositivas, junto al terminal IPython.
  2. La versión de Spark en el ejercicio no es la misma que en las lecciones. La plataforma de ejercicios se ha actualizado a una versión más reciente de Spark.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Importa la clase SparkSession de pyspark.sql.
  • Crea un objeto SparkSession conectado a un cluster local. Utiliza todos los núcleos disponibles. Nombra la aplicación 'test'.
  • Utiliza el atributo version del objeto SparkSession para recuperar la versión de Spark que se ejecuta en el cluster. Nota: La versión puede ser diferente de la que se utiliza en la presentación (se actualiza de vez en cuando).
  • Apaga el clúster.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import the SparkSession class
from ____ import ____

# Create SparkSession object
spark = SparkSession.builder \
                    .master(____) \
                    .____(____) \
                    .____()

# What version of Spark?
print(spark.____)

# Terminate the cluster
spark.____()
Editar y ejecutar código