LoslegenKostenlos loslegen

Einen DataFrame verwenden

In der letzten Übung hast du gelernt, wie man eine Aufgabe aufteilt und die niedrigschwellige Python-API multiprocessing.Pool nutzt, um Berechnungen auf mehreren Verarbeitungseinheiten durchzuführen.

Es ist wichtig, das auf einer niedrigschwelligen Ebene zu verstehen, aber in der Realität wirst du solche APIs nie benutzen. Eine einfachere Möglichkeit, eine Anwendung über mehrere Gruppen zu verteilen, ist zum Beispiel das Framework dask und seine Abstraktion des pandas-DataFrame.

Der pandas-DataFrame, athlete_events, ist in deinem Arbeitsbereich abrufbar.

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

import dask.dataframe as dd

# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)
Code bearbeiten und ausführen