De la tarea a las subtareas

Para este ejercicio, utilizarás la computación en paralelo para aplicar la función take_mean_age() que calcula la edad media de los atletas en un año determinado en el conjunto de datos de eventos de las Olimpiadas. El DataFrame athlete_events viene cargado y contiene, entre otras, dos columnas:

Year: el año en que tuvo lugar el acontecimiento olímpico
Age: la edad del atleta olímpico

Utilizarás la página multiprocessor.Pool API, que te permite distribuir la carga de trabajo entre varios procesos. La función parallel_apply() está definida en el código de ejemplo. Toma como entrada la función que se aplica, la agrupación utilizada y el número de núcleos necesarios para el análisis. Ten en cuenta que el decorador @print_timing se utiliza para temporizar cada operación.

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

Instrucciones del ejercicio

Completa el código, de forma que primero apliques take_mean_age con el núcleo 1, luego 2 y finalmente 4 núcleos.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Function to apply a function over multiple cores
@print_timing
def parallel_apply(apply_func, groups, nb_cores):
    with Pool(nb_cores) as p:
        results = p.map(apply_func, groups)
    return pd.concat(results)

# Parallel apply using 1 core
parallel_apply(take_mean_age, athlete_events.groupby('Year'), ____)

# Parallel apply using 2 cores
parallel_apply(take_mean_age, athlete_events.groupby('Year'), ____)

# Parallel apply using 4 cores
parallel_apply(take_mean_age, athlete_events.groupby('Year'), ____)

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

En este primer capítulo, te adentrarás en el mundo de la ingeniería de datos. Explora las diferencias entre un ingeniero de datos y un científico de datos, obtén una visión general de las diversas herramientas que utilizan los ingenieros de datos y amplía tu comprensión de cómo la tecnología de la nube desempeña un papel en la ingeniería de datos.

Exercise 1: ¿Qué es la ingeniería de datos?Exercise 2: Tareas de un ingeniero de datos Exercise 3: ¿Ingeniero de datos o científico de datos?Exercise 4: Problemas de la ingeniería de datos Exercise 5: Herramientas del ingeniero de datos Exercise 6: Tipos de bases de datos Exercise 7: Tareas de procesamiento Exercise 8: Herramientas de programación Exercise 9: Proveedores de nube Exercise 10: ¿Por qué la computación en la nube?Exercise 11: Grandes nombres de la computación en nube Exercise 12: Servicios en la nube

Ahora que ya conoces las principales diferencias entre un ingeniero de datos y un científico de datos, ¡prepárate para descubrir la caja de herramientas que usa un ingeniero de datos! Conoce en detalle los distintos tipos de bases de datos que utilizan los ingenieros de datos, descubre cómo la computación paralela es una piedra angular del conjunto de herramientas del ingeniero de datos y aprende a programar trabajos de procesamiento de datos utilizando marcos de programación.

Exercise 1: Bases de datos Exercise 2: SQL vs NoSQL Exercise 3: El esquema de la base de datos Exercise 4: Uniones en relaciones Exercise 5: Diagrama de esquema en estrella Exercise 6: Qué es la computación paralela Exercise 7: ¿Por qué la computación paralela?Exercise 8: De la tarea a las subtareas

Ejercicio actual

Exercise 9: Uso de un DataFrame Exercise 10: Frameworks de computación paralela Exercise 11: Spark, Hadoop y Hive Exercise 12: Groupby de PySpark Exercise 13: Ejecución de archivos PySpark Exercise 14: Frameworks de programación de flujos de trabajo Exercise 15: Airflow, Luigi y cron Exercise 16: DAGs de Airflow

Después de explorar la caja de herramientas que usan los ingenieros de datos, ha llegado el momento de pasar al pan de cada día del flujo de trabajo de un ingeniero de datos. Con ETL, aprenderás a extraer datos brutos de diversas fuentes, a transformar estos datos brutos en información procesable y a cargarla en bases de datos relevantes, listas para ser usadas.

Exercise 1: Extraer Exercise 2: Fuentes de datos Exercise 3: Obtener desde una API Exercise 4: Leer de una base de datos Exercise 5: Transformar Exercise 6: División del alquiler Exercise 7: Preparación para transformaciones Exercise 8: Uniones con valoraciones Exercise 9: Carga Exercise 10: OLAP o OLTP Exercise 11: Escritura en un archivo Exercise 12: Cargar en Postgres Exercise 13: Unirlo todo Exercise 14: Definición de un DAG Exercise 15: Configuración de Airflow Exercise 16: Interpretación del DAG

Culmina todo lo que has aprendido en los tres capítulos anteriores completando un caso de uso de ingeniería de datos del mundo real de DataCamp. Realizarás y programarás un proceso ETL que transforme los datos brutos de calificación de los cursos en recomendaciones de cursos procesables para los estudiantes de DataCamp.

Exercise 1: Valoraciones de cursos Exercise 2: Exploración del esquema Exercise 3: Consulta de la tabla Exercise 4: Valoración media por curso Exercise 5: De las valoraciones a las recomendaciones Exercise 6: Filtrar los datos corruptos Exercise 7: Uso de la transformación de recomendación Exercise 8: Programación de trabajos diarios Exercise 9: La tabla de destino Exercise 10: Definición del DAG Exercise 11: Activación del DAG Exercise 12: Consulta de las recomendaciones Exercise 13: ¡Enhorabuena!