Agregación
Todos los métodos de agregación habituales, como .min(), .max(), y .count() son métodos GroupedData. Se crean llamando al método .groupBy() DataFrame. Aprenderás exactamente lo que eso significa en unos pocos ejercicios. Por ahora, todo lo que tienes que hacer para utilizar estas funciones es llamar a ese método en tu DataFrame. Por ejemplo, para encontrar el valor mínimo de una columna, col, en un DataFrame, df, podrías hacer
df.groupBy().min("col").show()
Esto crea un objeto GroupedData (para que puedas utilizar el método .min() ), luego encuentra el valor mínimo en col, y lo devuelve como un DataFrame.
Ahora ya puedes hacer tu propia agregación.
Un SparkSession llamado spark ya está en tu espacio de trabajo, junto con el Spark DataFrame flights.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Encuentra la longitud del vuelo más corto (en términos de distancia) que salió de PDX, primero
.filter()ing y utilizando el método.min(). Realiza el filtrado haciendo referencia directa a la columna, sin pasar una cadena SQL. - Encuentra la duración del vuelo más largo (en términos de tiempo) que salió de SEA mediante
filter()ing y utilizando el método.max(). Realiza el filtrado haciendo referencia directa a la columna, sin pasar una cadena SQL.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Find the shortest flight from PDX in terms of distance
flights.filter(____.____ == ____).groupBy().____(____).show()
# Find the longest flight from SEA in terms of air time
flights.filter(____).groupBy().____.show()