ComeçarComece de graça

Arrays Dask a partir de conjuntos de dados HDF5

Você recebeu a tarefa de analisar a precipitação na Europa nos últimos 40 anos. A precipitação média mensal em uma grade de locais pela Europa foi fornecida para você em formato HDF5. Como esse arquivo é bem grande, você decide carregá-lo e processá-lo usando Dask.

h5py já foi importado para você, e dask.array foi importado como da.

Este exercício faz parte do curso

Programação Paralela com Dask em Python

Ver curso

Instruções do exercício

  • Abra o arquivo 'data/era_eu.hdf5' usando h5py.
  • Carregue a variável '/precip' em um array Dask usando a função from_array() e defina chunks de (12 meses, 15 latitudes e 15 longitudes).
  • Use fatiamento de array para selecionar a cada 12º índice ao longo do primeiro eixo — isso seleciona os dados de janeiro de todos os anos.
  • Calcule a média de january_rainfalls ao longo do eixo do tempo (eixo 0) para obter a precipitação média em janeiro na Europa.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Open the HDF5 dataset using h5py
hdf5_file = ____.____(____)

# Load the file into a Dask array with a reasonable chunk size
precip = da.____(____, chunks=____)

# Select only the months of January
january_rainfalls = ____[____]

# Calculate the mean rainfall in January for each location
january_mean_rainfall = ____.____(axis=____)

plt.imshow(january_mean_rainfall.compute())
plt.show()
Editar e executar o código