Agregación
Todos los métodos de agregación habituales, como .min()
, .max()
, y .count()
son métodos GroupedData
. Se crean llamando al método .groupBy()
DataFrame. Aprenderás exactamente lo que eso significa en unos pocos ejercicios. Por ahora, todo lo que tienes que hacer para utilizar estas funciones es llamar a ese método en tu DataFrame. Por ejemplo, para encontrar el valor mínimo de una columna, col
, en un DataFrame, df
, podrías hacer
df.groupBy().min("col").show()
Esto crea un objeto GroupedData
(para que puedas utilizar el método .min()
), luego encuentra el valor mínimo en col
, y lo devuelve como un DataFrame.
Ahora ya puedes hacer tu propia agregación.
Un SparkSession
llamado spark
ya está en tu espacio de trabajo, junto con el Spark DataFrame flights
.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Encuentra la longitud del vuelo más corto (en términos de distancia) que salió de PDX, primero
.filter()
ing y utilizando el método.min()
. Realiza el filtrado haciendo referencia directa a la columna, sin pasar una cadena SQL. - Encuentra la duración del vuelo más largo (en términos de tiempo) que salió de SEA mediante
filter()
ing y utilizando el método.max()
. Realiza el filtrado haciendo referencia directa a la columna, sin pasar una cadena SQL.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Find the shortest flight from PDX in terms of distance
flights.filter(____.____ == ____).groupBy().____(____).show()
# Find the longest flight from SEA in terms of air time
flights.filter(____).groupBy().____.show()