Filtrar Dask bags
Los datos de políticos con los que estás trabajando provienen de distintas fuentes, así que no están muy limpios. Muchos diccionarios no tienen algunas claves que puedes necesitar para tu análisis. Tendrás que filtrar los elementos con claves importantes ausentes.
En el entorno tienes disponible una función llamada has_birth_date(). Comprueba si el diccionario de entrada contiene la clave 'birth_date'. Devuelve True si la clave está en el diccionario y False si no.
def has_birth_date(dictionary):
return 'birth_date' in dictionary
El bag que creaste en el ejercicio anterior está disponible en tu entorno como dict_bag.
Este ejercicio forma parte del curso
Programación paralela con Dask en Python
Instrucciones del ejercicio
- Usa el método
.count()dedict_bagpara imprimir cuántos elementos contiene. - Usa la función
has_birth_date()para filtrar los elementos que no tienen la clave'birth_date'. - Imprime el número de elementos que contiene
filtered_bag.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Print the number of elements in dict_bag
print(____)
# Filter out records using the has_birth_date() function
filtered_bag = dict_bag.____(____)
# Print the number of elements in filtered_bag
print(____)