LoslegenKostenlos starten

Einen DataFrame verwenden

In der letzten Übung hast du gelernt, wie man eine Aufgabe aufteilt und die niedrigschwellige Python-API multiprocessing.Pool nutzt, um Berechnungen auf mehreren Verarbeitungseinheiten durchzuführen.

Es ist wichtig, das auf einer niedrigschwelligen Ebene zu verstehen, aber in der Realität wirst du solche APIs nie benutzen. Eine einfachere Möglichkeit, eine Anwendung über mehrere Gruppen zu verteilen, ist zum Beispiel das Framework dask und seine Abstraktion des pandas-DataFrame.

Der pandas-DataFrame, athlete_events, ist in deinem Arbeitsbereich abrufbar.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in das Data Engineering</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

import dask.dataframe as dd

# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)
Code bearbeiten und ausführen