Convertendo para DataFrame
Você quer criar um DataFrame a partir dos dados JSON de políticos. Agora que você já “desaninhou” os dados, tudo o que precisa fazer é selecionar as chaves que serão mantidas como colunas no DataFrame.
O Dask bag que você criou no exercício anterior está disponível no seu ambiente como dict_bag.
Este exercício faz parte do curso
Programação Paralela com Dask em Python
Instruções do exercício
- Complete a função
select_keys()para que as chaves na listakeys_to_keepsejam adicionadas ao novo dicionário filtrado e retornadas. - Use a função
select_keys()para selecionar as chaves['gender','name', 'birth_date', 'url']dedict_bag. - Converta o bag filtrado em um Dask DataFrame.
- Imprima as primeiras linhas do DataFrame.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
def select_keys(dictionary, keys_to_keep):
new_dict = {}
# Loop through kept keys and add them to new dictionary
for k in ____:
____
return new_dict
# Use the select_keys to reduce to the 4 required keys
filtered_bag = dict_bag.map(____, ____=____)
# Convert the restructured bag to a DataFrame
df = filtered_bag.____
# Print the first few rows of the DataFrame
print(____)