Filtrando Dask bags
Os dados de políticos com que você está trabalhando vêm de fontes diferentes, então não estão muito limpos. Muitos dos dicionários estão sem chaves que você pode precisar para realizar sua análise. Você precisará filtrar os elementos com chaves importantes ausentes.
Uma função chamada has_birth_date() está disponível no ambiente. Ela verifica se o dicionário de entrada contém a chave 'birth_date'. Retorna True se a chave estiver no dicionário e False caso contrário.
def has_birth_date(dictionary):
return 'birth_date' in dictionary
O bag que você criou no exercício anterior está disponível no seu ambiente como dict_bag.
Este exercício faz parte do curso
Programação Paralela com Dask em Python
Instruções do exercício
- Use o método
.count()dedict_bagpara imprimir quantos elementos ele contém. - Use a função
has_birth_date()para filtrar os elementos que não têm a chave'birth_date'. - Imprima quantos elementos
filtered_bagcontém.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Print the number of elements in dict_bag
print(____)
# Filter out records using the has_birth_date() function
filtered_bag = dict_bag.____(____)
# Print the number of elements in filtered_bag
print(____)