Een DAG definiëren

In de vorige oefeningen heb je de drie stappen van het ETL-proces toegepast:

Extract: Haal de PostgreSQL-tabel film op in pandas.
Transform: Splits de kolom rental_rate van de film-DataFrame.
Load: Laad de film-DataFrame in een PostgreSQL-datawarehouse.

De functies extract_film_to_pandas(), transform_rental_rate() en load_dataframe_to_film() zijn beschikbaar in je werkruimte. In deze oefening voeg je een ETL-taak toe aan een bestaande DAG. De uit te breiden DAG en de taak waarop moet worden gewacht, zijn in je werkruimte gedefinieerd als respectievelijk dag en wait_for_table.

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

Oefeninstructies

Maak de functie etl() af met de functies die in de oefenbeschrijving staan.
Zorg dat etl_task de callable etl gebruikt.
Stel de juiste upstream-afhankelijkheid in. Let op: etl_task moet wachten tot wait_for_table klaar is.
De voorbeeldcode bevat een voorbeelduitvoering. Dit betekent dat de ETL-pijplijn draait wanneer je de code uitvoert.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Define the ETL function
def etl():
    film_df = ____()
    film_df = ____(____)
    ____(____)

# Define the ETL task using PythonOperator
etl_task = PythonOperator(task_id='etl_film',
                          python_callable=____,
                          dag=dag)

# Set the upstream to wait_for_table and sample run etl()
etl_task.____(wait_for_table)
etl()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit eerste hoofdstuk maak je kennis met de wereld van data engineering! Ontdek de verschillen tussen een data engineer en een data scientist, krijg een overzicht van de verschillende tools die data engineers gebruiken, en vergroot je begrip van de rol van cloudtechnologie binnen data engineering.

Exercise 1: Wat is data engineering?Exercise 2: Taken van de data engineer Exercise 3: Data engineer of data scientist?Exercise 4: Problemen in data engineering Exercise 5: Tools van de data engineer Exercise 6: Soorten databases Exercise 7: Verwerkingstaken Exercise 8: Planningshulpmiddelen Exercise 9: Cloudproviders Exercise 10: Waarom cloud computing?Exercise 11: Grote spelers in cloud computing Exercise 12: Cloudservices

Nu je de belangrijkste verschillen tussen een data engineer en een data scientist kent, is het tijd om de gereedschapskist van de data engineer te verkennen! Leer in detail over verschillende typen databases die data engineers gebruiken, hoe parallelle verwerking een hoeksteen is van hun toolkit, en hoe je verwerkingsjobs inplant met planningsframeworks.

Exercise 1: Databases Exercise 2: SQL vs NoSQL Exercise 3: Het databaseschema Exercise 4: Joinen op relaties Exercise 5: Sterschema-diagram Exercise 6: Wat is parallel computing Exercise 7: Waarom parallel computing?Exercise 8: Van taak naar subtaken Exercise 9: Een DataFrame gebruiken Exercise 10: Frameworks voor parallelle berekeningen Exercise 11: Spark, Hadoop en Hive Exercise 12: Een PySpark groupby Exercise 13: PySpark-bestanden uitvoeren Exercise 14: Frameworks voor het plannen van workflows Exercise 15: Airflow, Luigi en cron Exercise 16: Airflow-DAG's

Na de gereedschapskist van data engineers te hebben verkend, is het nu tijd voor de kern van de workflow van een data engineer! Met ETL leer je hoe je ruwe data uit verschillende bronnen extraheert, deze ruwe data transformeert naar bruikbare inzichten, en ze laadt in relevante databases die klaar zijn voor gebruik.

Exercise 1: Extract Exercise 2: Databronnen Exercise 3: Data ophalen via een API Exercise 4: Lezen uit een database Exercise 5: Transformeren Exercise 6: De huurprijs opsplitsen Exercise 7: Voorbereiden op transformaties Exercise 8: Joinen met ratings Exercise 9: Laden Exercise 10: OLAP of OLTP Exercise 11: Schrijven naar een bestand Exercise 12: Laden in Postgres Exercise 13: Alles samenbrengen Exercise 14: Een DAG definiëren

Huidige oefening

Exercise 15: Airflow instellen Exercise 16: De DAG interpreteren

Rond alles wat je in de eerste drie hoofdstukken hebt geleerd af met een realistische data-engineeringusecase van DataCamp! Je voert een ETL-proces uit en plant dit in, waarmee je ruwe cursusbeoordelingsdata omzet naar bruikbare cursusaanbevelingen voor DataCamp-studenten!

Exercise 1: Cursusbeoordelingen Exercise 2: De schema's verkennen Exercise 3: De tabel bevragen Exercise 4: Gemiddelde beoordeling per cursus Exercise 5: Van beoordelingen naar aanbevelingen Exercise 6: Filter corrupte data eruit Exercise 7: De aanbevelingstransformatie gebruiken Exercise 8: Dagelijkse jobs plannen Exercise 9: De doeltabel Exercise 10: De DAG definiëren Exercise 11: Schakel de DAG in Exercise 12: De aanbevelingen opvragen Exercise 13: Gefeliciteerd