Inizia subitoInizia gratis

Uso di un DataFrame

Nel precedente esercizio hai visto come suddividere un'attività e usare la API di basso livello multiprocessing.Pool di Python per eseguire calcoli su più unità di elaborazione.

È fondamentale capirlo a un livello più basso, ma nella pratica non userai quasi mai questo tipo di API. Un modo più comodo per parallelizzare un apply su più gruppi è usare, per esempio, il framework dask e la sua astrazione del DataFrame di pandas.

Il DataFrame di pandas, athlete_events, è disponibile nel tuo workspace.

Questo esercizio fa parte del corso

Introduzione al Data Engineering

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

import dask.dataframe as dd

# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)
Modifica ed esegui il codice