IniziaInizia gratis

Concatenare operazioni

Ora che hai caricato e ripulito i dati, puoi iniziare ad analizzarli. Il primo compito è esaminare le date di nascita dei politici. Le date di nascita sono in formato stringa come 'YYYY-MM-DD'. I primi 4 caratteri della stringa rappresentano l'anno.

Il Dask bag filtrato che hai creato nell'esercizio precedente, filtered_bag, è disponibile nel tuo ambiente.

Questo esercizio fa parte del corso

Programmazione parallela con Dask in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Usa il metodo .pluck() del bag per estrarre le stringhe 'birth_date'.
  • Scrivi una funzione lambda per ricavare l'anno dalla stringa 'birth_date' e convertirlo in un intero.
  • Usa il nuovo bag birth_year_bag per calcolare anno minimo, massimo e medio di nascita.
  • Usa la funzione dask.compute() per calcolare in modo efficiente i tre aggregati.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Select the 'birth_date' from each dictionary in the bag
birth_date_bag = filtered_bag.____

# Extract the year as an integer from the birth_date strings
birth_year_bag = birth_date_bag.____(lambda x: ____)

# Calculate the min, max and mean birth years
min_year = ____
max_year = ____
mean_year = ____

# Compute the results efficiently and print them
print(____(____))
Modifica ed esegui il codice