ComenzarEmpieza gratis

Encadenar operaciones

Ahora que has cargado y limpiado los datos, puedes empezar a analizarlos. Tu primera tarea es revisar las fechas de nacimiento de los políticos. Las fechas de nacimiento están en formato de cadena como 'YYYY-MM-DD'. Los primeros 4 caracteres de la cadena son el año.

La Dask bag filtrada que creaste en el ejercicio anterior, filtered_bag, está disponible en tu entorno.

Este ejercicio forma parte del curso

Programación paralela con Dask en Python

Ver curso

Instrucciones del ejercicio

  • Usa el método .pluck() de la bag para extraer las cadenas 'birth_date'.
  • Escribe una función lambda que extraiga la cadena del año de las cadenas 'birth_date' y la convierta en un entero.
  • Usa la nueva bag birth_year_bag para calcular los años de nacimiento mínimo, máximo y medio.
  • Usa la función dask.compute() para calcular los tres agregados de forma eficiente.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Select the 'birth_date' from each dictionary in the bag
birth_date_bag = filtered_bag.____

# Extract the year as an integer from the birth_date strings
birth_year_bag = birth_date_bag.____(lambda x: ____)

# Calculate the min, max and mean birth years
min_year = ____
max_year = ____
mean_year = ____

# Compute the results efficiently and print them
print(____(____))
Editar y ejecutar código