ComenzarEmpieza gratis

Ejecutar SQL sobre DataFrames

Los DataFrames se pueden manipular fácilmente usando consultas SQL en PySpark. El método .sql() en una SparkSession permite que las aplicaciones ejecuten consultas SQL de forma programática y devuelve el resultado como otro DataFrame. En este ejercicio, crearás una tabla temporal a partir de un DataFrame que has creado previamente, luego construirás una consulta para seleccionar los nombres de las personas de la tabla temporal y asignarás el resultado a un nuevo DataFrame.

Recuerda que ya tienes disponible en tu espacio de trabajo una SparkSession spark y un DataFrame df.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Crea una tabla temporal llamada "people" a partir del DataFrame df.
  • Construye una consulta para seleccionar los nombres de las personas de la tabla temporal people.
  • Asigna el resultado de la consulta de Spark a un nuevo DataFrame llamado people_df_names.
  • Imprime los 10 primeros nombres de las personas del DataFrame people_df_names.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create a temporary table "people"
df.____("people")

# Select the names from the temporary table people
query = """SELECT name FROM ____"""

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Editar y ejecutar código