Agrupar agregando la misma columna dos veces

Hay casos en los que la notación por puntos puede ser más engorrosa que SQL. En este ejercicio vas a calcular la primera y la última hora para cada línea de tren. El siguiente código lo hace usando notación por puntos.

from pyspark.sql.functions import min, max, col
expr = [min(col("time")).alias('start'), max(col("time")).alias('end')]
dot_df = df.groupBy("train_id").agg(*expr)
dot_df.show()

+--------+-----+-----+
|train_id|start|  end|
+--------+-----+-----+
|     217|6:06a|6:59a|
|     324|7:59a|9:05a|
+--------+-----+-----+

Tu misión es lograr el mismo resultado usando una consulta SQL. El dataframe df se ha registrado como una tabla llamada schedule.

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Instrucciones del ejercicio

Escribe una consulta SQL que dé un resultado idéntico al de la consulta con notación por puntos.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Write a SQL query giving a result identical to dot_df
query = "SELECT ____ FROM schedule ____ ____ ____"
sql_df = spark.sql(query)
sql_df.show()

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

AvanzadoNivel de habilidad

4.8+

Comienza el curso gratis

En este capítulo aprenderás a crear y consultar una tabla SQL en Spark. Spark SQL aporta la expresividad de SQL a Spark. También verás cómo usar funciones de ventana en SQL dentro de Spark. Las funciones de ventana realizan un cálculo sobre filas relacionadas con la fila actual. Simplifican mucho la obtención de resultados que son difíciles de expresar solo con joins y agregaciones tradicionales. Usaremos funciones de ventana para realizar sumas acumuladas, diferencias acumuladas y otras operaciones que son complejas en SQL básico.

Exercise 1: Crear y consultar una tabla SQL en Spark Exercise 2: Crear una tabla SQL a partir de un dataframe Exercise 3: Determinar los nombres de las columnas de una tabla Exercise 4: SQL con funciones de ventana Exercise 5: Sumas acumuladas con funciones de ventana en SQL Exercise 6: Corrige la consulta rota Exercise 7: Notación por puntos y SQL Exercise 8: Agregación, paso a paso Exercise 9: Agrupar agregando la misma columna dos veces

Ejercicio actual

Exercise 10: SQL de agregación con notación por puntos Exercise 11: Convierte la función window de notación de puntos a SQL

En este capítulo, cargarás texto en lenguaje natural. Luego aplicarás un análisis con ventana deslizante para encontrar secuencias de palabras frecuentes.

Exercise 1: Cargar texto de lenguaje natural Exercise 2: Cargar un dataframe desde un archivo parquet Exercise 3: Divide y expande una columna de texto Exercise 4: Uso de monotonically_increasing_id()Exercise 5: Análisis con ventana deslizante Exercise 6: Creación de datos de características de ventana de contexto Exercise 7: Reparticionar los datos Exercise 8: Secuencias de palabras frecuentes Exercise 9: ¿Qué tipo de datos son estos?Exercise 10: Encontrar secuencias de palabras comunes Exercise 11: 5-tuplos únicos en orden ascendente Exercise 12: Tríos de palabras más frecuentes por capítulo

En los capítulos anteriores aprendiste a usar la expresividad del SQL con funciones de ventana. Sin embargo, precisamente por esa expresividad, ahora es importante que sepas cómo almacenar correctamente en caché los dataframes y las tablas SQL. También es clave saber cómo evaluar tu aplicación. Aprenderás a hacerlo con la Spark UI. Además, verás una práctica recomendada para el registro (logging) en Spark. Spark SQL aporta otra herramienta útil para ajustar problemas de rendimiento en las consultas: el plan de ejecución. Aprenderás a usar el plan de ejecución para evaluar la procedencia de un dataframe.

Exercise 1: Caché Exercise 2: Practicando el uso de la caché: parte 1 Exercise 3: Practicar el cacheo: el SQL Exercise 4: Practicando el caché: juntándolo todo Exercise 5: Almacenar y quitar tablas del caché Exercise 6: La Spark UI Exercise 7: Pestaña Storage de la Spark UI Exercise 8: Inspeccionar la caché en la Spark UI Exercise 9: Registro de logs Exercise 10: Practica el registro (logging)Exercise 11: Practica el registro 2 Exercise 12: Planes de consulta Exercise 13: Practica con los planes de consulta Exercise 14: Practica la lectura de planes de consulta 2

Los capítulos anteriores te dieron las herramientas para cargar texto en bruto, tokenizarlo y extraer secuencias de palabras. Esto ya es muy útil para el análisis, pero también lo es para Machine Learning. Ahora pondrás todo en conjunto usando regresión logística para clasificar texto. Al finalizar este capítulo, habrás cargado datos de texto en lenguaje natural en bruto y los habrás usado para entrenar un clasificador de texto.

Exercise 1: Extraer, transformar y seleccionar Exercise 2: Practicar la creación de una UDF Exercise 3: Practicar con columnas array Exercise 4: Creación de datos de características para clasificación Exercise 5: Crear un UDF para datos vectoriales Exercise 6: Aplicar una UDF a datos vectoriales Exercise 7: Transformar texto a formato vectorial Exercise 8: Clasificación de texto Exercise 9: Etiquetar los datos Exercise 10: Divide los datos Exercise 11: Entrena el clasificador Exercise 12: Predicción y evaluación Exercise 13: Evalúa el clasificador Exercise 14: Predecir datos de prueba Exercise 15: Resumen