¿Algo que consultar?

Una de las ventajas de la interfaz DataFrame es que te permite ejecutar consultas SQL en las tablas de tu clúster de Spark. Si no tienes experiencia con SQL, no te preocupes, ¡te daremos las consultas! (Si quieres aprender más sobre SQL, empieza por nuestro curso «Introducción a SQL».)

Como has visto en el último ejercicio, una de las tablas de tu clúster es la tabla flights. Esta tabla contiene una fila para cada vuelo que salió del Aeropuerto Internacional de Portland (PDX) o del Aeropuerto Internacional de Seattle-Tacoma (SEA) en 2014 y 2015.

Ejecutar una consulta en esta tabla es tan fácil como utilizar el método .sql() en tu SparkSession. ¡Este método toma una cadena que contiene la consulta y devuelve un DataFrame con los resultados!

Si te fijas bien, verás que la tabla flights solo se menciona en la consulta, no como argumento de ninguno de los métodos. Esto se debe a que no hay ningún objeto local en tu entorno que contenga esos datos, por lo que no tendría sentido pasar la tabla como argumento.

Recuerda que ya hemos creado un SparkSession llamado spark en tu espacio de trabajo. (¡Ya no se llama my_spark porque lo hemos creado para ti!)

Este ejercicio forma parte del curso

Fundamentos de PySpark

Ver curso

Instrucciones del ejercicio

Utiliza el método .sql() para obtener las 10 primeras filas de la tabla flights y guarda el resultado en flights10. La variablequerycontiene la consulta SQL correspondiente.
Utiliza el método DataFrame .show() para imprimir flights10.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Don't change this query
query = "FROM flights SELECT * LIMIT 10"

# Get the first 10 rows of flights
flights10 = ____

# Show the results
flights10.____

Editar y ejecutar código