Gérer des données fortement imbriquées
Au dernier exercice, vous avez aplati des données imbriquées d’un niveau. Ici, vous allez déplier des données encore plus imbriquées.
L’attribut categories dans la réponse de l’API Yelp contient des listes d’objets. Pour aplatir ces données, vous allez utiliser les arguments de json_normalize() pour indiquer le chemin vers categories et sélectionner d’autres attributs à inclure dans le dataframe. Vous devez aussi changer le séparateur pour faciliter la sélection des colonnes et ajouter un préfixe aux autres attributs afin d’éviter les collisions de noms de colonnes. Nous allons procéder étape par étape.
pandas (en tant que pd) et json_normalize() ont été importés. Les données Yelp au format JSON sur les cafés à New York sont stockées dans data.
Cet exercice fait partie du cours
Ingestion de données simplifiée avec pandas
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Flatten businesses records and set underscore separators
flat_cafes = ____(data["businesses"],
____)
# View the data
print(flat_cafes.head())