Filtrare i Dask bag
I dati sui politici con cui stai lavorando provengono da fonti diverse, quindi non sono molto puliti. Molti dizionari non hanno le chiavi che potrebbero servirti per l’analisi. Dovrai filtrare gli elementi con chiavi importanti mancanti.
Nel tuo ambiente è disponibile una funzione chiamata has_birth_date(). Controlla se il dizionario in input contiene la chiave 'birth_date'. Restituisce True se la chiave è presente nel dizionario e False in caso contrario.
def has_birth_date(dictionary):
return 'birth_date' in dictionary
Il bag che hai creato nell’esercizio precedente è disponibile nel tuo ambiente come dict_bag.
Questo esercizio fa parte del corso
Programmazione parallela con Dask in Python
Istruzioni dell'esercizio
- Usa il metodo
.count()didict_bagper stampare il numero di elementi che contiene. - Usa la funzione
has_birth_date()per filtrare gli elementi che non hanno la chiave'birth_date'. - Stampa il numero di elementi contenuti in
filtered_bag.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Print the number of elements in dict_bag
print(____)
# Filter out records using the has_birth_date() function
filtered_bag = dict_bag.____(____)
# Print the number of elements in filtered_bag
print(____)