Einen DataFrame verwenden
In der letzten Übung hast du gelernt, wie man eine Aufgabe aufteilt und die niedrigschwellige Python-API multiprocessing.Pool
nutzt, um Berechnungen auf mehreren Verarbeitungseinheiten durchzuführen.
Es ist wichtig, das auf einer niedrigschwelligen Ebene zu verstehen, aber in der Realität wirst du solche APIs nie benutzen. Eine einfachere Möglichkeit, eine Anwendung über mehrere Gruppen zu verteilen, ist zum Beispiel das Framework dask
und seine Abstraktion des pandas
-DataFrame.
Der pandas
-DataFrame, athlete_events
, ist in deinem Arbeitsbereich abrufbar.
Diese Übung ist Teil des Kurses
Einführung in das Data Engineering
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)