Encadeando operações
Agora que você carregou e limpou os dados, pode começar a analisá-los. Sua primeira tarefa é olhar as datas de nascimento dos políticos. As datas estão em formato de string como 'YYYY-MM-DD'. Os primeiros 4 caracteres da string são o ano.
O Dask bag filtrado que você criou no último exercício, filtered_bag, está disponível no seu ambiente.
Este exercício faz parte do curso
Programação Paralela com Dask em Python
Instruções do exercício
- Use o método
.pluck()do bag para extrair as strings'birth_date'. - Escreva uma função lambda para extrair o ano da string
'birth_date'e convertê-lo em inteiro. - Use o novo bag
birth_year_bagpara calcular os anos de nascimento mínimo, máximo e médio. - Use a função
dask.compute()para calcular os três agregados com eficiência.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Select the 'birth_date' from each dictionary in the bag
birth_date_bag = filtered_bag.____
# Extract the year as an integer from the birth_date strings
birth_year_bag = birth_date_bag.____(lambda x: ____)
# Calculate the min, max and mean birth years
min_year = ____
max_year = ____
mean_year = ____
# Compute the results efficiently and print them
print(____(____))