Gérer des données fortement imbriquées

Au dernier exercice, vous avez aplati des données imbriquées d’un niveau. Ici, vous allez déplier des données encore plus imbriquées.

L’attribut categories dans la réponse de l’API Yelp contient des listes d’objets. Pour aplatir ces données, vous allez utiliser les arguments de json_normalize() pour indiquer le chemin vers categories et sélectionner d’autres attributs à inclure dans le dataframe. Vous devez aussi changer le séparateur pour faciliter la sélection des colonnes et ajouter un préfixe aux autres attributs afin d’éviter les collisions de noms de colonnes. Nous allons procéder étape par étape.

pandas (en tant que pd) et json_normalize() ont été importés. Les données Yelp au format JSON sur les cafés à New York sont stockées dans data.

Cet exercice fait partie du cours

<cours>Ingestion de données simplifiée avec pandas</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Flatten businesses records and set underscore separators
flat_cafes = ____(data["businesses"],
                  ____)

# View the data
print(flat_cafes.head())

Modifier et exécuter le code