Conversion en DataFrame
Vous souhaitez créer un DataFrame à partir des données JSON sur les responsables politiques. Maintenant que vous avez aplanit la structure des données, il ne reste plus qu’à sélectionner les clés à conserver comme colonnes du DataFrame.
Le Dask bag que vous avez créé dans l’exercice précédent est disponible dans votre environnement sous le nom dict_bag.
Cet exercice fait partie du cours
Programmation parallèle avec Dask en Python
Instructions
- Complétez la fonction
select_keys()afin que les clés de la listekeys_to_keepsoient ajoutées au nouveau dictionnaire filtré, puis retournées. - Utilisez la fonction
select_keys()pour sélectionner les clés['gender','name', 'birth_date', 'url']depuisdict_bag. - Convertissez le bag filtré en Dask DataFrame.
- Affichez les premières lignes du DataFrame.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def select_keys(dictionary, keys_to_keep):
new_dict = {}
# Loop through kept keys and add them to new dictionary
for k in ____:
____
return new_dict
# Use the select_keys to reduce to the 4 required keys
filtered_bag = dict_bag.map(____, ____=____)
# Convert the restructured bag to a DataFrame
df = filtered_bag.____
# Print the first few rows of the DataFrame
print(____)