Een woordenboek herstructureren
Nu wil je de politicusgegevens opschonen en in een Dask DataFrame zetten. De gegevens zijn echter genest, dus je moet ze eerst verder verwerken voordat ze in een DataFrame passen.
Eén specifiek gegeven dat je wilt ophalen, zit een paar lagen diep in het woordenboek. Het gaat om een link naar een website voor elke politicus. Het onderstaande voorbeeld laat zien hoe dit in het woordenboek is opgeslagen.
record = {
...
'links': [{'note': '...',
'url': '...'},], # Hier opgeslagen
...
}
De bag met politicusgegevens is in je omgeving beschikbaar als dict_bag.
Deze oefening maakt deel uit van de cursus
Parallel programmeren met Dask in Python
Oefeninstructies
- Maak de functie
extract_url()af om de sleutel'url'uit het woordenboek te halen. Deze staat op positie nul in de lijst onder de sleutel'links'. Ken de waarde toe aan de sleutelurl. - Voer de functie
extract_url()uit op alle elementen van de bag.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
def extract_url(x):
# Extract the url and assign it to the key 'url'
x['url'] = x[____][____][____]
return x
# Run the function on all elements in the bag.
dict_bag = ____
print(dict_bag.take(1))