ComenzarEmpieza gratis

Groupby de PySpark

Has visto cómo utilizar el framework dask y su abstracción DataFrame para hacer algunos cálculos. Sin embargo, como has visto en el vídeo, en el mundo de los grandes datos Spark es probablemente una opción más popular para el procesamiento de datos.

En este ejercicio, utilizarás el paquete PySpark para manejar un DataFrame de Spark. Los datos son los mismos que en ejercicios anteriores: participantes en pruebas olímpicas entre 1896 y 2016.

El DataFrame Spark, athlete_events_spark está disponible en tu espacio de trabajo.

Los métodos que vas a utilizar en este ejercicio son:

  • .printSchema(): ayuda a imprimir el esquema de un DataFrame Spark.
  • .groupBy(): declaración de agrupación para una agregación.
  • .mean(): toma la media de cada grupo.
  • .show(): muestra los resultados.

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

Ver curso

Instrucciones de ejercicio

  • Imprime el tipo de athlete_events_spark.
  • Averigua el esquema de athlete_events_spark.
  • Imprime la edad media de los olímpicos, agrupados por años. Observa que spark aún no ha calculado nada. Puedes llamar a esto evaluación perezosa.
  • Toma el resultado anterior, y llama a .show() sobre el resultado para calcular la edad media.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())
Editar y ejecutar código