¿Algo que consultar?
Una de las ventajas de la interfaz DataFrame es que puedes ejecutar consultas SQL en las tablas de tu clúster de Spark. Si no tienes experiencia con SQL, no te preocupes, ¡te proporcionaremos consultas! (Para saber más SQL, empieza por nuestro curso de Introducción a SQL.)
Como has visto en el último ejercicio, una de las tablas de tu clúster es la tabla flights
. Esta tabla contiene una fila por cada vuelo que salió del Aeropuerto Internacional de Portland (PDX) o del Aeropuerto Internacional de Seattle-Tacoma (SEA) en 2014 y 2015.
Ejecutar una consulta en esta tabla es tan fácil como utilizar el método .sql()
en tu SparkSession
. ¡Este método toma una cadena que contiene la consulta y devuelve un DataFrame con los resultados!
Si te fijas bien, verás que la tabla flights
solo se menciona en la consulta, no como argumento de ninguno de los métodos. Esto se debe a que no hay ningún objeto local en tu entorno que contenga esos datos, por lo que no tendría sentido pasar la tabla como argumento.
Recuerda que ya hemos creado un SparkSession
llamado spark
en tu espacio de trabajo. (¡Ya no se llama my_spark
porque lo hemos creado para ti!)
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones de ejercicio
- Utiliza el método
.sql()
para obtener las 10 primeras filas de la tablaflights
y guarda el resultado enflights10
. La variablequery
contiene la consulta SQL correspondiente. - Utiliza el método DataFrame
.show()
para imprimirflights10
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Don't change this query
query = "FROM flights SELECT * LIMIT 10"
# Get the first 10 rows of flights
flights10 = ____
# Show the results
flights10.____