ComenzarEmpieza gratis

Inspeccionar la caché en la Spark UI

Hay disponible un dataframe partitioned_df. Se utiliza para registrar una tabla temporal llamada text. Luego, text se almacena en caché con spark.catalog.cacheTable('text'). Si estuvieras ejecutando Spark en local, la Spark UI estaría disponible en http://localhost:4040/storage/. Para este ejercicio, examina la siguiente imagen. Muestra lo que verías en la Spark UI una vez que la caché de text se haya cargado:

Spark UI Storage

Esto indica que una tabla llamada text con siete particiones está almacenada en memoria. ¿Cuál de las siguientes opciones haría que esto apareciera inmediatamente en la Spark UI?

  1. Realizar una transformación sobre el dataframe subyacente, por ejemplo: df = partitioned_df.distinct().

  2. Contar el dataframe subyacente, por ejemplo: partitioned_df.count()

  3. Consultar la tabla usando, por ejemplo: spark.sql("select count(*) from text")

  4. Consultar y mostrar el resultado, por ejemplo: spark.sql("select count(*) from text").show()

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Ver curso

Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio