Uso de un DataFrame
En el ejercicio anterior, has visto cómo dividir una tarea y utilizar el bajo nivel de python multiprocessing.Pool
API para realizar cálculos en varias unidades de procesamiento.
Es esencial entender esto a un nivel inferior, pero en realidad, nunca utilizarás este tipo de APIs. Una forma más cómoda de paralelizar una aplicación en varios grupos es utilizar el framework dask
y su abstracción del DataFrame pandas
, por ejemplo.
El DataFrame de pandas
, athlete_events
, está disponible en tu espacio de trabajo.
Este ejercicio forma parte del curso
Introducción a la ingeniería de datos
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)