ComenzarEmpieza gratis

Crear una SparkSession

En este ejercicio, pondrás en marcha un clúster Spark local utilizando todos los núcleos disponibles. Se podrá acceder al clúster a través de un objeto SparkSession.

La clase SparkSession tiene un atributo builder, que es una instancia de la clase Builder. La clase Builder expone tres métodos importantes que te permiten:

  • especifica la ubicación del nodo maestro;
  • da un nombre a la solicitud (opcional); y
  • recuperar un SparkSession existente o, si no hay ninguno, crear uno nuevo.

La clase SparkSession tiene un atributo version que proporciona la versión de Spark. Nota: También se puede acceder a la versión mediante el atributo __version__ del módulo pyspark.

Más información sobre SparkSession aquí.

Una vez que hayas terminado con el clúster, es una buena idea apagarlo, lo que liberará sus recursos, dejándolos disponibles para otros procesos.

Nota:: Puede que te resulte útil repasar las diapositivas de las lecciones en el panel Diapositivas situado junto a la Cáscara de Python.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Importa la clase SparkSession de pyspark.sql.
  • Crea un objeto SparkSession conectado a un cluster local. Utiliza todos los núcleos disponibles. Nombra la aplicación 'test'.
  • Utiliza el atributo version del objeto SparkSession para recuperar la versión de Spark que se ejecuta en el clúster. Nota: La versión puede ser diferente de la que se utiliza en la presentación (se actualiza de vez en cuando).
  • Apaga el clúster.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import the SparkSession class
from ____ import ____

# Create SparkSession object
spark = SparkSession.builder \
                    .master(____) \
                    .____(____) \
                    .____()

# What version of Spark?
print(spark.____)

# Terminate the cluster
spark.____()
Editar y ejecutar código