Arrays Dask a partir de conjuntos de dados HDF5
Você recebeu a tarefa de analisar a precipitação na Europa nos últimos 40 anos. A precipitação média mensal em uma grade de locais pela Europa foi fornecida para você em formato HDF5. Como esse arquivo é bem grande, você decide carregá-lo e processá-lo usando Dask.
h5py já foi importado para você, e dask.array foi importado como da.
Este exercício faz parte do curso
Programação Paralela com Dask em Python
Instruções do exercício
- Abra o arquivo
'data/era_eu.hdf5'usandoh5py. - Carregue a variável
'/precip'em um array Dask usando a funçãofrom_array()e defina chunks de (12 meses, 15 latitudes e 15 longitudes). - Use fatiamento de array para selecionar a cada 12º índice ao longo do primeiro eixo — isso seleciona os dados de janeiro de todos os anos.
- Calcule a média de
january_rainfallsao longo do eixo do tempo (eixo0) para obter a precipitação média em janeiro na Europa.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Open the HDF5 dataset using h5py
hdf5_file = ____.____(____)
# Load the file into a Dask array with a reasonable chunk size
precip = da.____(____, chunks=____)
# Select only the months of January
january_rainfalls = ____[____]
# Calculate the mean rainfall in January for each location
january_mean_rainfall = ____.____(axis=____)
plt.imshow(january_mean_rainfall.compute())
plt.show()