ComenzarEmpieza gratis

Ejecución de consultas SQL mediante programación

Los DataFrames pueden manipularse fácilmente mediante consultas SQL en PySpark. La función sql() de una SparkSession permite a las aplicaciones ejecutar consultas SQL mediante programación y devuelve el resultado como otro DataFrame. En este ejercicio crearás una tabla temporal del DataFrame que creaste previamente y, a continuación, construirás una consulta para seleccionar los nombres de las personas de la tabla temporal y asignarás el resultado a un nuevo DataFrame.

Recuerda que ya tienes spark de SparkSession y un DataFrame disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones de ejercicio

  • Crea la tabla temporal people.
  • Construye una query para seleccionar los nombres de las personas de la tabla temporal people.
  • Asigna el resultado de la query de Spark a un nuevo DataFrame: people_df_names.
  • Imprime los 10 nombres principales de las personas del DataFrame people_df_names.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create a temporary table "people"
people_df.____("people")

# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Editar y ejecutar código