ComenzarEmpieza gratis

Análisis con SQL sobre DataFrames

Las consultas SQL son concisas y fáciles de ejecutar comparadas con las operaciones sobre DataFrames. Pero para poder aplicar consultas SQL a un DataFrame, primero necesitas crear una vista temporal del DataFrame como si fuera una tabla y luego aplicar las consultas SQL sobre esa tabla.

Ya tienes un SparkContext spark y salaries_df disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Crea la tabla temporal "salaries_table" a partir del DataFrame salaries_df.
  • Construye una consulta para extraer la columna "job_title" donde company_location sea Canadá ("CA").
  • Aplica la consulta SQL y crea un nuevo DataFrame canada_titles.
  • Obtén un resumen de la tabla.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create a temporary view of salaries_table
salaries_df.____('salaries_table')

# Construct the "query"
query = '''SELECT job_title, salary_in_usd FROM ____ WHERE company_location == "CA"'''

# Apply the SQL "query"
canada_titles = spark.____(____)

# Generate basic statistics
canada_titles.____().show()
Editar y ejecutar código