SQL y Parquet

Los archivos parquet son perfectos como almacén de datos de respaldo para las consultas SQL en Spark. Aunque es posible ejecutar las mismas consultas directamente mediante las funciones Python de Spark, a veces es más fácil ejecutar las consultas de SQL junto con las opciones de Python.

Para este ejemplo, vamos a leer el archivo Parquet que creamos en el último ejercicio y registrarlo como una tabla SQL. Una vez registrado, ejecutaremos una consulta rápida contra la tabla (es decir, el archivo Parquet).

El objeto spark y el archivo AA_DFW_ALL.parquet están disponibles para ti automáticamente.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

Importa el archivo AA_DFW_ALL.parquet a flights_df.
Utiliza el método createOrReplaceTempView para poner un alias en la tabla flights.
Ejecuta una consulta Spark SQL contra la tabla flights.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Read the Parquet file into flights_df
flights_df = spark.read.____(____)

# Register the temp table
flights_df.____('flights')

# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)

Editar y ejecutar código