Arrays de Dask a partir de conjuntos de datos HDF5
Te han encargado analizar la lluvia en Europa durante los últimos 40 años. Tienes a tu disposición, en formato HDF5, la precipitación media mensual en una cuadrícula de ubicaciones por toda Europa. Como el archivo es bastante grande, decides cargarlo y procesarlo con Dask.
h5py ya se ha importado por ti y dask.array se ha importado como da.
Este ejercicio forma parte del curso
Programación paralela con Dask en Python
Instrucciones del ejercicio
- Abre el archivo
'data/era_eu.hdf5'usandoh5py. - Carga la variable
'/precip'en un array de Dask usando la funciónfrom_array()y establece bloques de (12 meses, 15 latitudes y 15 longitudes). - Usa slicing de arrays para seleccionar cada índice 12.º a lo largo del primer eje: así seleccionas los datos de enero de todos los años.
- Calcula la media de
january_rainfallsa lo largo del eje temporal (eje0) para obtener la precipitación media de enero en toda Europa.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Open the HDF5 dataset using h5py
hdf5_file = ____.____(____)
# Load the file into a Dask array with a reasonable chunk size
precip = da.____(____, chunks=____)
# Select only the months of January
january_rainfalls = ____[____]
# Calculate the mean rainfall in January for each location
january_mean_rainfall = ____.____(axis=____)
plt.imshow(january_mean_rainfall.compute())
plt.show()