ComenzarEmpieza gratis

Arrays de Dask a partir de conjuntos de datos HDF5

Te han encargado analizar la lluvia en Europa durante los últimos 40 años. Tienes a tu disposición, en formato HDF5, la precipitación media mensual en una cuadrícula de ubicaciones por toda Europa. Como el archivo es bastante grande, decides cargarlo y procesarlo con Dask.

h5py ya se ha importado por ti y dask.array se ha importado como da.

Este ejercicio forma parte del curso

Programación paralela con Dask en Python

Ver curso

Instrucciones del ejercicio

  • Abre el archivo 'data/era_eu.hdf5' usando h5py.
  • Carga la variable '/precip' en un array de Dask usando la función from_array() y establece bloques de (12 meses, 15 latitudes y 15 longitudes).
  • Usa slicing de arrays para seleccionar cada índice 12.º a lo largo del primer eje: así seleccionas los datos de enero de todos los años.
  • Calcula la media de january_rainfalls a lo largo del eje temporal (eje 0) para obtener la precipitación media de enero en toda Europa.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Open the HDF5 dataset using h5py
hdf5_file = ____.____(____)

# Load the file into a Dask array with a reasonable chunk size
precip = da.____(____, chunks=____)

# Select only the months of January
january_rainfalls = ____[____]

# Calculate the mean rainfall in January for each location
january_mean_rainfall = ____.____(axis=____)

plt.imshow(january_mean_rainfall.compute())
plt.show()
Editar y ejecutar código