Einen DataFrame verwenden
In der vorherigen Übung hast du gesehen, wie du eine Aufgabe aufteilen und die Low-Level-API von Python multiprocessing.Pool
nutzen kannst, um Berechnungen auf mehreren Verarbeitungseinheiten durchzuführen.
Es ist wichtig, dies auf einer niedrigeren Ebene zu verstehen, aber in Wirklichkeit wirst du diese Art von APIs nie benutzen. Eine bequemere Möglichkeit, eine Anwendung über mehrere Gruppen zu parallelisieren, ist zum Beispiel das dask
Framework und seine Abstraktion des pandas
DataFrame.
Der DataFrame pandas
, athlete_events
, ist in deinem Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Einführung in die Datentechnik
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)