Operationen verketten
Jetzt, da du die Daten geladen und bereinigt hast, kannst du mit der Analyse beginnen. Deine erste Aufgabe ist es, dir die Geburtsdaten der Politiker anzuschauen. Die Geburtsdaten liegen als Strings im Format 'YYYY-MM-DD' vor. Die ersten 4 Zeichen im String sind das Jahr.
Der gefilterte Dask-Bag filtered_bag, den du in der letzten Übung erstellt hast, steht in deiner Umgebung zur Verfügung.
Diese Übung ist Teil des Kurses
<Kurs>Parallele Programmierung mit Dask in Python</Kurs>Übungsanweisungen
- Verwende die
.pluck()-Methode des Bags, um die'birth_date'-Strings zu extrahieren. - Schreibe eine Lambda-Funktion, die aus den
'birth_date'-Strings die Jahreszeichenfolge extrahiert und in eine ganze Zahl umwandelt. - Verwende den neuen Bag
birth_year_bag, um das minimale, maximale und durchschnittliche Geburtsjahr zu berechnen. - Verwende die Funktion
dask.compute(), um die drei Aggregationen effizient zu berechnen.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Select the 'birth_date' from each dictionary in the bag
birth_date_bag = filtered_bag.____
# Extract the year as an integer from the birth_date strings
birth_year_bag = birth_date_bag.____(lambda x: ____)
# Calculate the min, max and mean birth years
min_year = ____
max_year = ____
mean_year = ____
# Compute the results efficiently and print them
print(____(____))