ComenzarEmpieza gratis

Agregación

Todos los métodos de agregación habituales, como .min(), .max(), y .count() son métodos GroupedData. Se crean llamando al método .groupBy() DataFrame. Aprenderás exactamente lo que eso significa en unos pocos ejercicios. Por ahora, todo lo que tienes que hacer para utilizar estas funciones es llamar a ese método en tu DataFrame. Por ejemplo, para encontrar el valor mínimo de una columna, col, en un DataFrame, df, podrías hacer

df.groupBy().min("col").show()

Esto crea un objeto GroupedData (para que puedas utilizar el método .min() ), luego encuentra el valor mínimo en col, y lo devuelve como un DataFrame.

Ahora ya puedes hacer tu propia agregación.

Un SparkSession llamado spark ya está en tu espacio de trabajo, junto con el Spark DataFrame flights.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Encuentra la longitud del vuelo más corto (en términos de distancia) que salió de PDX, primero .filter()ing y utilizando el método .min(). Realiza el filtrado haciendo referencia directa a la columna, sin pasar una cadena SQL.
  • Encuentra la duración del vuelo más largo (en términos de tiempo) que salió de SEA mediante filter()ing y utilizando el método .max(). Realiza el filtrado haciendo referencia directa a la columna, sin pasar una cadena SQL.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Find the shortest flight from PDX in terms of distance
flights.filter(____.____ == ____).groupBy().____(____).show()

# Find the longest flight from SEA in terms of air time
flights.filter(____).groupBy().____.show()
Editar y ejecutar código