ComenzarEmpieza gratis

¿Algo que consultar?

Una de las ventajas de la interfaz DataFrame es que puedes ejecutar consultas SQL en las tablas de tu clúster de Spark. Si no tienes experiencia con SQL, no te preocupes, ¡te proporcionaremos consultas! (Para saber más SQL, empieza por nuestro curso de Introducción a SQL.)

Como has visto en el último ejercicio, una de las tablas de tu clúster es la tabla flights. Esta tabla contiene una fila por cada vuelo que salió del Aeropuerto Internacional de Portland (PDX) o del Aeropuerto Internacional de Seattle-Tacoma (SEA) en 2014 y 2015.

Ejecutar una consulta en esta tabla es tan fácil como utilizar el método .sql() en tu SparkSession. ¡Este método toma una cadena que contiene la consulta y devuelve un DataFrame con los resultados!

Si te fijas bien, verás que la tabla flights solo se menciona en la consulta, no como argumento de ninguno de los métodos. Esto se debe a que no hay ningún objeto local en tu entorno que contenga esos datos, por lo que no tendría sentido pasar la tabla como argumento.

Recuerda que ya hemos creado un SparkSession llamado spark en tu espacio de trabajo. (¡Ya no se llama my_spark porque lo hemos creado para ti!)

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones de ejercicio

  • Utiliza el método .sql() para obtener las 10 primeras filas de la tabla flights y guarda el resultado en flights10. La variable query contiene la consulta SQL correspondiente.
  • Utiliza el método DataFrame .show() para imprimir flights10.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Don't change this query
query = "FROM flights SELECT * LIMIT 10"

# Get the first 10 rows of flights
flights10 = ____

# Show the results
flights10.____
Editar y ejecutar código