Van taak naar subtaken

In deze oefening ga je parallel computing gebruiken om de functie take_mean_age() toe te passen, die de gemiddelde leeftijd van atleten in een bepaald jaar berekent in de dataset met Olympische evenementen. De DataFrame athlete_events is voor je geladen en bevat onder andere twee kolommen:

Year: het jaar waarin het Olympisch evenement plaatsvond
Age: de leeftijd van de Olympiër

Je gaat de multiprocessor.Pool-API gebruiken, waarmee je je werklast over meerdere processen kunt verdelen. De functie parallel_apply() is gedefinieerd in de voorbeeldcode. Die neemt als invoer de toe te passen functie, de gebruikte groepering en het aantal cores dat voor de analyse nodig is. Let op: de decorator @print_timing wordt gebruikt om elke bewerking te timen.

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

Oefeninstructies

Maak de code af zodat je take_mean_age eerst met 1 core toepast, daarna met 2 en tot slot met 4 cores.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Function to apply a function over multiple cores
@print_timing
def parallel_apply(apply_func, groups, nb_cores):
    with Pool(nb_cores) as p:
        results = p.map(apply_func, groups)
    return pd.concat(results)

# Parallel apply using 1 core
parallel_apply(take_mean_age, athlete_events.groupby('Year'), ____)

# Parallel apply using 2 cores
parallel_apply(take_mean_age, athlete_events.groupby('Year'), ____)

# Parallel apply using 4 cores
parallel_apply(take_mean_age, athlete_events.groupby('Year'), ____)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit eerste hoofdstuk maak je kennis met de wereld van data engineering! Ontdek de verschillen tussen een data engineer en een data scientist, krijg een overzicht van de verschillende tools die data engineers gebruiken, en vergroot je begrip van de rol van cloudtechnologie binnen data engineering.

Exercise 1: Wat is data engineering?Exercise 2: Taken van de data engineer Exercise 3: Data engineer of data scientist?Exercise 4: Problemen in data engineering Exercise 5: Tools van de data engineer Exercise 6: Soorten databases Exercise 7: Verwerkingstaken Exercise 8: Planningshulpmiddelen Exercise 9: Cloudproviders Exercise 10: Waarom cloud computing?Exercise 11: Grote spelers in cloud computing Exercise 12: Cloudservices

Nu je de belangrijkste verschillen tussen een data engineer en een data scientist kent, is het tijd om de gereedschapskist van de data engineer te verkennen! Leer in detail over verschillende typen databases die data engineers gebruiken, hoe parallelle verwerking een hoeksteen is van hun toolkit, en hoe je verwerkingsjobs inplant met planningsframeworks.

Exercise 1: Databases Exercise 2: SQL vs NoSQL Exercise 3: Het databaseschema Exercise 4: Joinen op relaties Exercise 5: Sterschema-diagram Exercise 6: Wat is parallel computing Exercise 7: Waarom parallel computing?Exercise 8: Van taak naar subtaken

Huidige oefening

Exercise 9: Een DataFrame gebruiken Exercise 10: Frameworks voor parallelle berekeningen Exercise 11: Spark, Hadoop en Hive Exercise 12: Een PySpark groupby Exercise 13: PySpark-bestanden uitvoeren Exercise 14: Frameworks voor het plannen van workflows Exercise 15: Airflow, Luigi en cron Exercise 16: Airflow-DAG's

Na de gereedschapskist van data engineers te hebben verkend, is het nu tijd voor de kern van de workflow van een data engineer! Met ETL leer je hoe je ruwe data uit verschillende bronnen extraheert, deze ruwe data transformeert naar bruikbare inzichten, en ze laadt in relevante databases die klaar zijn voor gebruik.

Exercise 1: Extract Exercise 2: Databronnen Exercise 3: Data ophalen via een API Exercise 4: Lezen uit een database Exercise 5: Transformeren Exercise 6: De huurprijs opsplitsen Exercise 7: Voorbereiden op transformaties Exercise 8: Joinen met ratings Exercise 9: Laden Exercise 10: OLAP of OLTP Exercise 11: Schrijven naar een bestand Exercise 12: Laden in Postgres Exercise 13: Alles samenbrengen Exercise 14: Een DAG definiëren Exercise 15: Airflow instellen Exercise 16: De DAG interpreteren

Rond alles wat je in de eerste drie hoofdstukken hebt geleerd af met een realistische data-engineeringusecase van DataCamp! Je voert een ETL-proces uit en plant dit in, waarmee je ruwe cursusbeoordelingsdata omzet naar bruikbare cursusaanbevelingen voor DataCamp-studenten!

Exercise 1: Cursusbeoordelingen Exercise 2: De schema's verkennen Exercise 3: De tabel bevragen Exercise 4: Gemiddelde beoordeling per cursus Exercise 5: Van beoordelingen naar aanbevelingen Exercise 6: Filter corrupte data eruit Exercise 7: De aanbevelingstransformatie gebruiken Exercise 8: Dagelijkse jobs plannen Exercise 9: De doeltabel Exercise 10: De DAG definiëren Exercise 11: Schakel de DAG in Exercise 12: De aanbevelingen opvragen Exercise 13: Gefeliciteerd