Concatenare operazioni
Ora che hai caricato e ripulito i dati, puoi iniziare ad analizzarli. Il primo compito è esaminare le date di nascita dei politici. Le date di nascita sono in formato stringa come 'YYYY-MM-DD'. I primi 4 caratteri della stringa rappresentano l'anno.
Il Dask bag filtrato che hai creato nell'esercizio precedente, filtered_bag, è disponibile nel tuo ambiente.
Questo esercizio fa parte del corso
Programmazione parallela con Dask in Python
Istruzioni dell'esercizio
- Usa il metodo
.pluck()del bag per estrarre le stringhe'birth_date'. - Scrivi una funzione lambda per ricavare l'anno dalla stringa
'birth_date'e convertirlo in un intero. - Usa il nuovo bag
birth_year_bagper calcolare anno minimo, massimo e medio di nascita. - Usa la funzione
dask.compute()per calcolare in modo efficiente i tre aggregati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Select the 'birth_date' from each dictionary in the bag
birth_date_bag = filtered_bag.____
# Extract the year as an integer from the birth_date strings
birth_year_bag = birth_date_bag.____(lambda x: ____)
# Calculate the min, max and mean birth years
min_year = ____
max_year = ____
mean_year = ____
# Compute the results efficiently and print them
print(____(____))