Tableaux Dask à partir de jeux de données HDF5
Votre mission est d’analyser les précipitations en Europe sur les 40 dernières années. La moyenne mensuelle des précipitations sur une grille de points en Europe vous est fournie au format HDF5. Comme ce fichier est assez volumineux, vous décidez de le charger et de le traiter avec Dask.
h5py a été importé pour vous, et dask.array a été importé sous le nom da.
Cet exercice fait partie du cours
Programmation parallèle avec Dask en Python
Instructions
- Ouvrez le fichier
'data/era_eu.hdf5'avech5py. - Chargez la variable
'/precip'dans un tableau Dask avec la fonctionfrom_array(), et définissez des chunks de (12 mois, 15 latitudes et 15 longitudes). - Utilisez le slicing de tableau pour sélectionner chaque 12e index le long du premier axe : cela sélectionne les données de janvier pour toutes les années.
- Calculez la moyenne de
january_rainfallsle long de l’axe temporel (axe0) pour obtenir la moyenne des précipitations en janvier à l’échelle de l’Europe.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Open the HDF5 dataset using h5py
hdf5_file = ____.____(____)
# Load the file into a Dask array with a reasonable chunk size
precip = da.____(____, chunks=____)
# Select only the months of January
january_rainfalls = ____[____]
# Calculate the mean rainfall in January for each location
january_mean_rainfall = ____.____(axis=____)
plt.imshow(january_mean_rainfall.compute())
plt.show()