Aan de slagGa gratis aan de slag

Een DataFrame gebruiken

In de vorige oefening zag je hoe je een taak kunt opsplitsen en de low-level Python-API multiprocessing.Pool kunt gebruiken om berekeningen op meerdere verwerkings­eenheden uit te voeren.

Het is belangrijk om dit op laag niveau te begrijpen, maar in de praktijk gebruik je dit soort API’s bijna nooit. Een handigere manier om een apply over meerdere groepen te paralleliseren is bijvoorbeeld met het dask-framework en de abstractie daarvan van de pandas DataFrame.

De pandas DataFrame athlete_events is beschikbaar in je workspace.

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

import dask.dataframe as dd

# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)
Code bewerken en uitvoeren