Análisis con SQL sobre DataFrames
Las consultas SQL son concisas y fáciles de ejecutar comparadas con las operaciones sobre DataFrames. Pero para poder aplicar consultas SQL a un DataFrame, primero necesitas crear una vista temporal del DataFrame como si fuera una tabla y luego aplicar las consultas SQL sobre esa tabla.
Ya tienes un SparkContext spark y salaries_df disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Crea la tabla temporal
"salaries_table"a partir del DataFramesalaries_df. - Construye una consulta para extraer la columna "job_title" donde
company_locationsea Canadá ("CA"). - Aplica la consulta SQL y crea un nuevo DataFrame
canada_titles. - Obtén un resumen de la tabla.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a temporary view of salaries_table
salaries_df.____('salaries_table')
# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''
# Apply the SQL "query"
canada_titles = spark.____(____)
# Generate basic statistics
canada_titles.____().show()