IniziaInizia gratis

Uso di un DataFrame

Nel precedente esercizio hai visto come suddividere un'attività e usare la API di basso livello multiprocessing.Pool di Python per eseguire calcoli su più unità di elaborazione.

È fondamentale capirlo a un livello più basso, ma nella pratica non userai quasi mai questo tipo di API. Un modo più comodo per parallelizzare un apply su più gruppi è usare, per esempio, il framework dask e la sua astrazione del DataFrame di pandas.

Il DataFrame di pandas, athlete_events, è disponibile nel tuo workspace.

Questo esercizio fa parte del corso

Introduzione al Data Engineering

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

import dask.dataframe as dd

# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)
Modifica ed esegui il codice