Ejecutar SQL sobre DataFrames
Los DataFrames se pueden manipular fácilmente usando consultas SQL en PySpark. El método .sql() en una SparkSession permite que las aplicaciones ejecuten consultas SQL de forma programática y devuelve el resultado como otro DataFrame. En este ejercicio, crearás una tabla temporal a partir de un DataFrame que has creado previamente, luego construirás una consulta para seleccionar los nombres de las personas de la tabla temporal y asignarás el resultado a un nuevo DataFrame.
Recuerda que ya tienes disponible en tu espacio de trabajo una SparkSession spark y un DataFrame df.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Crea una tabla temporal llamada
"people"a partir del DataFramedf. - Construye una consulta para seleccionar los nombres de las personas de la tabla temporal
people. - Asigna el resultado de la consulta de Spark a un nuevo DataFrame llamado
people_df_names. - Imprime los 10 primeros nombres de las personas del DataFrame
people_df_names.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a temporary table "people"
df.____("people")
# Select the names from the temporary table people
query = """SELECT name FROM ____"""
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)