ComeçarComece de graça

Encadeando operações

Agora que você carregou e limpou os dados, pode começar a analisá-los. Sua primeira tarefa é olhar as datas de nascimento dos políticos. As datas estão em formato de string como 'YYYY-MM-DD'. Os primeiros 4 caracteres da string são o ano.

O Dask bag filtrado que você criou no último exercício, filtered_bag, está disponível no seu ambiente.

Este exercício faz parte do curso

Programação Paralela com Dask em Python

Ver curso

Instruções do exercício

  • Use o método .pluck() do bag para extrair as strings 'birth_date'.
  • Escreva uma função lambda para extrair o ano da string 'birth_date' e convertê-lo em inteiro.
  • Use o novo bag birth_year_bag para calcular os anos de nascimento mínimo, máximo e médio.
  • Use a função dask.compute() para calcular os três agregados com eficiência.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Select the 'birth_date' from each dictionary in the bag
birth_date_bag = filtered_bag.____

# Extract the year as an integer from the birth_date strings
birth_year_bag = birth_date_bag.____(lambda x: ____)

# Calculate the min, max and mean birth years
min_year = ____
max_year = ____
mean_year = ____

# Compute the results efficiently and print them
print(____(____))
Editar e executar o código