Aan de slagGa gratis aan de slag

Omzetten naar DataFrame

Je wilt een DataFrame maken van de JSON-gegevens over politici. Nu je de gegevens hebt genesthed, hoef je alleen nog de keys te kiezen die je als kolommen in het DataFrame wilt behouden.

De Dask bag die je in de vorige oefening hebt gemaakt is beschikbaar in je omgeving als dict_bag.

Deze oefening maakt deel uit van de cursus

Parallel programmeren met Dask in Python

Cursus bekijken

Oefeninstructies

  • Maak de functie select_keys() af zodat de keys in de lijst keys_to_keep worden toegevoegd aan het nieuwe gefilterde woordenboek en geretourneerd.
  • Gebruik de functie select_keys() om de keys ['gender','name', 'birth_date', 'url'] te selecteren uit dict_bag.
  • Zet de gefilterde bag om naar een Dask DataFrame.
  • Print de eerste paar rijen van het DataFrame.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

def select_keys(dictionary, keys_to_keep):
  new_dict = {}
  # Loop through kept keys and add them to new dictionary
  for k in ____:
    ____
  return new_dict

# Use the select_keys to reduce to the 4 required keys
filtered_bag = dict_bag.map(____, ____=____)

# Convert the restructured bag to a DataFrame
df = filtered_bag.____

# Print the first few rows of the DataFrame
print(____)
Code bewerken en uitvoeren