Encadenar operaciones
Ahora que has cargado y limpiado los datos, puedes empezar a analizarlos. Tu primera tarea es revisar las fechas de nacimiento de los políticos. Las fechas de nacimiento están en formato de cadena como 'YYYY-MM-DD'. Los primeros 4 caracteres de la cadena son el año.
La Dask bag filtrada que creaste en el ejercicio anterior, filtered_bag, está disponible en tu entorno.
Este ejercicio forma parte del curso
Programación paralela con Dask en Python
Instrucciones del ejercicio
- Usa el método
.pluck()de la bag para extraer las cadenas'birth_date'. - Escribe una función lambda que extraiga la cadena del año de las cadenas
'birth_date'y la convierta en un entero. - Usa la nueva bag
birth_year_bagpara calcular los años de nacimiento mínimo, máximo y medio. - Usa la función
dask.compute()para calcular los tres agregados de forma eficiente.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Select the 'birth_date' from each dictionary in the bag
birth_date_bag = filtered_bag.____
# Extract the year as an integer from the birth_date strings
birth_year_bag = birth_date_bag.____(lambda x: ____)
# Calculate the min, max and mean birth years
min_year = ____
max_year = ____
mean_year = ____
# Compute the results efficiently and print them
print(____(____))