Ejecución de consultas SQL mediante programación
Los DataFrames pueden manipularse fácilmente mediante consultas SQL en PySpark. La función sql()
de una SparkSession permite a las aplicaciones ejecutar consultas SQL mediante programación y devuelve el resultado como otro DataFrame. En este ejercicio crearás una tabla temporal del DataFrame que creaste previamente y, a continuación, construirás una consulta para seleccionar los nombres de las personas de la tabla temporal y asignarás el resultado a un nuevo DataFrame.
Recuerda que ya tienes spark
de SparkSession y un DataFrame disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Crea la tabla temporal
people
. - Construye una
query
para seleccionar los nombres de las personas de la tabla temporalpeople
. - Asigna el resultado de la
query
de Spark a un nuevo DataFrame:people_df_names
. - Imprime los 10 nombres principales de las personas del DataFrame
people_df_names
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create a temporary table "people"
people_df.____("people")
# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)