Een DataFrame gebruiken

In de vorige oefening zag je hoe je een taak kunt opsplitsen en de low-level Python-API multiprocessing.Pool kunt gebruiken om berekeningen op meerdere verwerkingseenheden uit te voeren.

Het is belangrijk om dit op laag niveau te begrijpen, maar in de praktijk gebruik je dit soort API’s bijna nooit. Een handigere manier om een apply over meerdere groepen te paralleliseren is bijvoorbeeld met het dask-framework en de abstractie daarvan van de pandas DataFrame.

De pandas DataFrame athlete_events is beschikbaar in je workspace.

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

import dask.dataframe as dd

# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit eerste hoofdstuk maak je kennis met de wereld van data engineering! Ontdek de verschillen tussen een data engineer en een data scientist, krijg een overzicht van de verschillende tools die data engineers gebruiken, en vergroot je begrip van de rol van cloudtechnologie binnen data engineering.

Exercise 1: Wat is data engineering?Exercise 2: Taken van de data engineer Exercise 3: Data engineer of data scientist?Exercise 4: Problemen in data engineering Exercise 5: Tools van de data engineer Exercise 6: Soorten databases Exercise 7: Verwerkingstaken Exercise 8: Planningshulpmiddelen Exercise 9: Cloudproviders Exercise 10: Waarom cloud computing?Exercise 11: Grote spelers in cloud computing Exercise 12: Cloudservices

Nu je de belangrijkste verschillen tussen een data engineer en een data scientist kent, is het tijd om de gereedschapskist van de data engineer te verkennen! Leer in detail over verschillende typen databases die data engineers gebruiken, hoe parallelle verwerking een hoeksteen is van hun toolkit, en hoe je verwerkingsjobs inplant met planningsframeworks.

Exercise 1: Databases Exercise 2: SQL vs NoSQL Exercise 3: Het databaseschema Exercise 4: Joinen op relaties Exercise 5: Sterschema-diagram Exercise 6: Wat is parallel computing Exercise 7: Waarom parallel computing?Exercise 8: Van taak naar subtaken Exercise 9: Een DataFrame gebruiken

Huidige oefening

Exercise 10: Frameworks voor parallelle berekeningen Exercise 11: Spark, Hadoop en Hive Exercise 12: Een PySpark groupby Exercise 13: PySpark-bestanden uitvoeren Exercise 14: Frameworks voor het plannen van workflows Exercise 15: Airflow, Luigi en cron Exercise 16: Airflow-DAG's

Na de gereedschapskist van data engineers te hebben verkend, is het nu tijd voor de kern van de workflow van een data engineer! Met ETL leer je hoe je ruwe data uit verschillende bronnen extraheert, deze ruwe data transformeert naar bruikbare inzichten, en ze laadt in relevante databases die klaar zijn voor gebruik.

Exercise 1: Extract Exercise 2: Databronnen Exercise 3: Data ophalen via een API Exercise 4: Lezen uit een database Exercise 5: Transformeren Exercise 6: De huurprijs opsplitsen Exercise 7: Voorbereiden op transformaties Exercise 8: Joinen met ratings Exercise 9: Laden Exercise 10: OLAP of OLTP Exercise 11: Schrijven naar een bestand Exercise 12: Laden in Postgres Exercise 13: Alles samenbrengen Exercise 14: Een DAG definiëren Exercise 15: Airflow instellen Exercise 16: De DAG interpreteren

Rond alles wat je in de eerste drie hoofdstukken hebt geleerd af met een realistische data-engineeringusecase van DataCamp! Je voert een ETL-proces uit en plant dit in, waarmee je ruwe cursusbeoordelingsdata omzet naar bruikbare cursusaanbevelingen voor DataCamp-studenten!

Exercise 1: Cursusbeoordelingen Exercise 2: De schema's verkennen Exercise 3: De tabel bevragen Exercise 4: Gemiddelde beoordeling per cursus Exercise 5: Van beoordelingen naar aanbevelingen Exercise 6: Filter corrupte data eruit Exercise 7: De aanbevelingstransformatie gebruiken Exercise 8: Dagelijkse jobs plannen Exercise 9: De doeltabel Exercise 10: De DAG definiëren Exercise 11: Schakel de DAG in Exercise 12: De aanbevelingen opvragen Exercise 13: Gefeliciteerd