IniziaInizia gratis

Array Dask da dataset HDF5

Ti è stato chiesto di analizzare le precipitazioni europee degli ultimi 40 anni. Le precipitazioni medie mensili su una griglia di località in Europa ti sono state fornite in formato HDF5. Dato che il file è piuttosto grande, decidi di caricarlo e processarlo con Dask.

h5py è già stato importato per te e dask.array è stato importato come da.

Questo esercizio fa parte del corso

Programmazione parallela con Dask in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Apri il file 'data/era_eu.hdf5' usando h5py.
  • Carica la variabile '/precip' in un array Dask usando la funzione from_array() e imposta chunk di (12 mesi, 15 latitudini e 15 longitudini).
  • Usa lo slicing dell’array per selezionare ogni 12° indice lungo il primo asse: in questo modo selezioni i dati di gennaio di tutti gli anni.
  • Calcola la media di january_rainfalls lungo l’asse temporale (asse 0) per ottenere la precipitazione media di gennaio in tutta Europa.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Open the HDF5 dataset using h5py
hdf5_file = ____.____(____)

# Load the file into a Dask array with a reasonable chunk size
precip = da.____(____, chunks=____)

# Select only the months of January
january_rainfalls = ____[____]

# Calculate the mean rainfall in January for each location
january_mean_rainfall = ____.____(axis=____)

plt.imshow(january_mean_rainfall.compute())
plt.show()
Modifica ed esegui il codice