SQL y Parquet
Los archivos parquet son perfectos como almacén de datos de respaldo para las consultas SQL en Spark. Aunque es posible ejecutar las mismas consultas directamente mediante las funciones Python de Spark, a veces es más fácil ejecutar las consultas de SQL junto con las opciones de Python.
Para este ejemplo, vamos a leer el archivo Parquet que creamos en el último ejercicio y registrarlo como una tabla SQL. Una vez registrado, ejecutaremos una consulta rápida contra la tabla (es decir, el archivo Parquet).
El objeto spark
y el archivo AA_DFW_ALL.parquet
están disponibles para ti automáticamente.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones de ejercicio
- Importa el archivo
AA_DFW_ALL.parquet
aflights_df
. - Utiliza el método
createOrReplaceTempView
para poner un alias en la tablaflights
. - Ejecuta una consulta Spark SQL contra la tabla
flights
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Read the Parquet file into flights_df
flights_df = spark.read.____(____)
# Register the temp table
flights_df.____('flights')
# Run a SQL query of the average flight duration
avg_duration = spark.____('SELECT avg(flight_duration) from flights').collect()[0]
print('The average flight time is: %d' % avg_duration)