Een DataFrame gebruiken
In de vorige oefening zag je hoe je een taak kunt opsplitsen en de low-level Python-API multiprocessing.Pool kunt gebruiken om berekeningen op meerdere verwerkingseenheden uit te voeren.
Het is belangrijk om dit op laag niveau te begrijpen, maar in de praktijk gebruik je dit soort API’s bijna nooit. Een handigere manier om een apply over meerdere groepen te paralleliseren is bijvoorbeeld met het dask-framework en de abstractie daarvan van de pandas DataFrame.
De pandas DataFrame athlete_events is beschikbaar in je workspace.
Deze oefening maakt deel uit van de cursus
Introductie tot Data Engineering
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)