CommencerCommencer gratuitement

Tableaux Dask à partir de jeux de données HDF5

Votre mission est d’analyser les précipitations en Europe sur les 40 dernières années. La moyenne mensuelle des précipitations sur une grille de points en Europe vous est fournie au format HDF5. Comme ce fichier est assez volumineux, vous décidez de le charger et de le traiter avec Dask.

h5py a été importé pour vous, et dask.array a été importé sous le nom da.

Cet exercice fait partie du cours

Programmation parallèle avec Dask en Python

Afficher le cours

Instructions

  • Ouvrez le fichier 'data/era_eu.hdf5' avec h5py.
  • Chargez la variable '/precip' dans un tableau Dask avec la fonction from_array(), et définissez des chunks de (12 mois, 15 latitudes et 15 longitudes).
  • Utilisez le slicing de tableau pour sélectionner chaque 12e index le long du premier axe : cela sélectionne les données de janvier pour toutes les années.
  • Calculez la moyenne de january_rainfalls le long de l’axe temporel (axe 0) pour obtenir la moyenne des précipitations en janvier à l’échelle de l’Europe.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Open the HDF5 dataset using h5py
hdf5_file = ____.____(____)

# Load the file into a Dask array with a reasonable chunk size
precip = da.____(____, chunks=____)

# Select only the months of January
january_rainfalls = ____[____]

# Calculate the mean rainfall in January for each location
january_mean_rainfall = ____.____(axis=____)

plt.imshow(january_mean_rainfall.compute())
plt.show()
Modifier et exécuter le code