ComenzarEmpieza gratis

Practica el registro 2

El siguiente código se ejecuta al inicio:

import logging
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG,
                    format='%(levelname)s - %(message)s')

En la lección aprendimos que las operaciones de Spark que desencadenan una acción deben registrarse con cuidado para evitar una pérdida silenciosa de recursos de cómputo. Ahora vas a practicar cómo identificar sentencias de registro que desencadenan una acción sobre un dataframe o una tabla.

Hay disponible un dataframe text_df. Este dataframe está registrado como una tabla llamada table1.

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Ver curso

Instrucciones del ejercicio

  • Se proporcionan varias sentencias de registro. Todas están inicialmente comentadas. Descomenta las cinco sentencias que no desencadenan una acción sobre text_df.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Uncomment the 5 statements that do NOT trigger text_df
# logging.debug("text_df columns: %s", text_df.columns)
# logging.info("table1 is cached: %s", spark.catalog.isCached(tableName="table1"))
# logging.warning("The first row of text_df: %s", text_df.first())
# logging.error("Selected columns: %s", text_df.select("id", "word"))
# logging.info("Tables: %s", spark.sql("show tables").collect())
# logging.debug("First row: %s", spark.sql("SELECT * FROM table1 limit 1"))
# logging.debug("Count: %s", spark.sql("SELECT COUNT(*) AS count FROM table1").collect())
Editar y ejecutar código