Uso di un DataFrame
Nel precedente esercizio hai visto come suddividere un'attività e usare la API di basso livello multiprocessing.Pool di Python per eseguire calcoli su più unità di elaborazione.
È fondamentale capirlo a un livello più basso, ma nella pratica non userai quasi mai questo tipo di API. Un modo più comodo per parallelizzare un apply su più gruppi è usare, per esempio, il framework dask e la sua astrazione del DataFrame di pandas.
Il DataFrame di pandas, athlete_events, è disponibile nel tuo workspace.
Questo esercizio fa parte del corso
Introduzione al Data Engineering
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)