De DAG definiëren

In de vorige oefeningen heb je de extract-, transform- en load-fase apart voltooid. Nu is alles samengebracht in één nette functie etl() die je in de console kunt bekijken.

De functie etl() haalt ruwe cursus- en beoordelingsgegevens op uit de relevante databases, schoont corrupte data op en vult ontbrekende waarden aan, berekent de gemiddelde beoordeling per cursus en maakt aanbevelingen op basis van de beslisregels voor aanbevelingen, en laadt ten slotte de aanbevelingen in een database.

Zoals je je uit de video herinnert, accepteert etl() één argument: db_engines. Je kunt dit aan de taak doorgeven via op_kwargs in de PythonOperator. Je kunt hier een dictionary aan doorgeven die wordt ingevuld als kwargs in de callable.

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

Oefeninstructies

Maak de DAG-definitie af zodat deze dagelijks draait. Gebruik hiervoor de cron-notatie.
Maak de PythonOperator() af door de juiste argumenten mee te geven. Naast etl is db_engines ook beschikbaar in je workspace.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Define the DAG so it runs on a daily basis
dag = DAG(dag_id="recommendations",
          schedule_interval="____")

# Make sure `etl()` is called in the operator. Pass the correct kwargs.
task_recommendations = PythonOperator(
    task_id="recommendations_task",
    python_callable=____,
    op_kwargs={"____": ____},
)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit eerste hoofdstuk maak je kennis met de wereld van data engineering! Ontdek de verschillen tussen een data engineer en een data scientist, krijg een overzicht van de verschillende tools die data engineers gebruiken, en vergroot je begrip van de rol van cloudtechnologie binnen data engineering.

Exercise 1: Wat is data engineering?Exercise 2: Taken van de data engineer Exercise 3: Data engineer of data scientist?Exercise 4: Problemen in data engineering Exercise 5: Tools van de data engineer Exercise 6: Soorten databases Exercise 7: Verwerkingstaken Exercise 8: Planningshulpmiddelen Exercise 9: Cloudproviders Exercise 10: Waarom cloud computing?Exercise 11: Grote spelers in cloud computing Exercise 12: Cloudservices

Nu je de belangrijkste verschillen tussen een data engineer en een data scientist kent, is het tijd om de gereedschapskist van de data engineer te verkennen! Leer in detail over verschillende typen databases die data engineers gebruiken, hoe parallelle verwerking een hoeksteen is van hun toolkit, en hoe je verwerkingsjobs inplant met planningsframeworks.

Exercise 1: Databases Exercise 2: SQL vs NoSQL Exercise 3: Het databaseschema Exercise 4: Joinen op relaties Exercise 5: Sterschema-diagram Exercise 6: Wat is parallel computing Exercise 7: Waarom parallel computing?Exercise 8: Van taak naar subtaken Exercise 9: Een DataFrame gebruiken Exercise 10: Frameworks voor parallelle berekeningen Exercise 11: Spark, Hadoop en Hive Exercise 12: Een PySpark groupby Exercise 13: PySpark-bestanden uitvoeren Exercise 14: Frameworks voor het plannen van workflows Exercise 15: Airflow, Luigi en cron Exercise 16: Airflow-DAG's

Na de gereedschapskist van data engineers te hebben verkend, is het nu tijd voor de kern van de workflow van een data engineer! Met ETL leer je hoe je ruwe data uit verschillende bronnen extraheert, deze ruwe data transformeert naar bruikbare inzichten, en ze laadt in relevante databases die klaar zijn voor gebruik.

Exercise 1: Extract Exercise 2: Databronnen Exercise 3: Data ophalen via een API Exercise 4: Lezen uit een database Exercise 5: Transformeren Exercise 6: De huurprijs opsplitsen Exercise 7: Voorbereiden op transformaties Exercise 8: Joinen met ratings Exercise 9: Laden Exercise 10: OLAP of OLTP Exercise 11: Schrijven naar een bestand Exercise 12: Laden in Postgres Exercise 13: Alles samenbrengen Exercise 14: Een DAG definiëren Exercise 15: Airflow instellen Exercise 16: De DAG interpreteren

Rond alles wat je in de eerste drie hoofdstukken hebt geleerd af met een realistische data-engineeringusecase van DataCamp! Je voert een ETL-proces uit en plant dit in, waarmee je ruwe cursusbeoordelingsdata omzet naar bruikbare cursusaanbevelingen voor DataCamp-studenten!

Exercise 1: Cursusbeoordelingen Exercise 2: De schema's verkennen Exercise 3: De tabel bevragen Exercise 4: Gemiddelde beoordeling per cursus Exercise 5: Van beoordelingen naar aanbevelingen Exercise 6: Filter corrupte data eruit Exercise 7: De aanbevelingstransformatie gebruiken Exercise 8: Dagelijkse jobs plannen Exercise 9: De doeltabel Exercise 10: De DAG definiëren

Huidige oefening

Exercise 11: Schakel de DAG in Exercise 12: De aanbevelingen opvragen Exercise 13: Gefeliciteerd