Array Dask dari himpunan data HDF5
Anda mendapat tugas menganalisis curah hujan di Eropa selama 40 tahun terakhir. Rata-rata curah hujan bulanan pada kisi lokasi di seluruh Eropa telah disediakan untuk Anda dalam format HDF5. Karena file ini cukup besar, Anda memutuskan untuk memuat dan memprosesnya menggunakan Dask.
h5py telah diimpor untuk Anda, dan dask.array telah diimpor sebagai da.
Latihan ini adalah bagian dari kursus
Pemrograman Paralel dengan Dask di Python
Petunjuk latihan
- Buka file
'data/era_eu.hdf5'menggunakanh5py. - Muat variabel
'/precip'ke dalam array Dask menggunakan fungsifrom_array(), dan tetapkan chunk berukuran (12 bulan, 15 lintang, dan 15 bujur). - Gunakan slicing array untuk memilih setiap indeks ke-12 sepanjang sumbu pertama — ini memilih data Januari dari semua tahun.
- Ambil mean dari
january_rainfallssepanjang sumbu waktu (sumbu0) untuk menghitung rata-rata curah hujan bulan Januari di seluruh Eropa.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Open the HDF5 dataset using h5py
hdf5_file = ____.____(____)
# Load the file into a Dask array with a reasonable chunk size
precip = da.____(____, chunks=____)
# Select only the months of January
january_rainfalls = ____[____]
# Calculate the mean rainfall in January for each location
january_mean_rainfall = ____.____(axis=____)
plt.imshow(january_mean_rainfall.compute())
plt.show()