CommencerCommencer gratuitement

Restructurer un dictionnaire

Vous souhaitez maintenant nettoyer les données des responsables politiques et les charger dans un Dask DataFrame. Cependant, ces données sont imbriquées ; vous devrez donc les transformer encore un peu avant qu’elles ne s’adaptent à un DataFrame.

Une information en particulier que vous voulez extraire est enfouie à plusieurs niveaux dans le dictionnaire. Il s’agit d’un lien vers un site web pour chaque responsable politique. L’exemple ci-dessous montre comment cette information est stockée dans le dictionnaire.

record = {
...
 'links': [{'note': '...',
            'url': '...'},],  # Stored here
...
}

Le bag contenant les données des responsables politiques est disponible dans votre environnement sous le nom dict_bag.

Cet exercice fait partie du cours

Programmation parallèle avec Dask en Python

Afficher le cours

Instructions

  • Complétez la fonction extract_url() pour extraire la clé 'url' du dictionnaire, qui se trouve à la position 0 dans la liste sous la clé 'links', puis affectez-la à la clé url.
  • Exécutez la fonction extract_url() sur tous les éléments du bag.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def extract_url(x):
    # Extract the url and assign it to the key 'url'
    x['url'] = x[____][____][____]
    return x
  
# Run the function on all elements in the bag.
dict_bag = ____

print(dict_bag.take(1))
Modifier et exécuter le code