Schrijven naar een bestand

In de video zag je dat bestanden vaak in een MPP-database zoals Redshift worden geladen om ze beschikbaar te maken voor analyse.

De gebruikelijke workflow is om de gegevens te schrijven naar kolomgeoriënteerde databestanden. Deze bestanden worden vervolgens geüpload naar een opslagsysteem en van daaruit kunnen ze naar het datawarehouse worden gekopieerd. In het geval van Amazon Redshift is het opslagsysteem bijvoorbeeld S3.

De eerste stap is een bestand in het juiste formaat schrijven. Voor deze oefening kies je het Apache Parquet-bestandsformaat.

Er staat een PySpark DataFrame film_sdf en een pandas DataFrame film_pdf in je werkruimte.

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

Cursus bekijken

Oefeninstructies

Schrijf de pandas DataFrame film_pdf weg naar een parquet-bestand met de naam "films_pdf.parquet".
Schrijf de PySpark DataFrame film_sdf weg naar een parquet-bestand met de naam "films_sdf.parquet".

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

SkillTag.level.intermediateSkillTag.label

4.8+

Begin de cursus gratis

In this first chapter, you will be exposed to the world of data engineering! Explore the differences between a data engineer and a data scientist, get an overview of the various tools data engineers use and expand your understanding of how cloud technology plays a role in data engineering.

Exercise 1: What is data engineering?Exercise 2: Tasks of the data engineer Exercise 3: Data engineer or data scientist?Exercise 4: Data engineering problems Exercise 5: Tools of the data engineer Exercise 6: Kinds of databases Exercise 7: Processing tasks Exercise 8: Scheduling tools Exercise 9: Cloud providers Exercise 10: Why cloud computing?Exercise 11: Big players in cloud computing Exercise 12: Cloud services

Now that you know the primary differences between a data engineer and a data scientist, get ready to explore the data engineer's toolbox! Learn in detail about different types of databases data engineers use, how parallel computing is a cornerstone of the data engineer's toolkit, and how to schedule data processing jobs using scheduling frameworks.

Exercise 1: Databases Exercise 2: SQL vs NoSQL Exercise 3: The database schema Exercise 4: Joining on relations Exercise 5: Star schema diagram Exercise 6: What is parallel computing Exercise 7: Why parallel computing?Exercise 8: From task to subtasks Exercise 9: Using a DataFrame Exercise 10: Parallel computation frameworks Exercise 11: Spark, Hadoop and Hive Exercise 12: A PySpark groupby Exercise 13: Running PySpark files Exercise 14: Workflow scheduling frameworks Exercise 15: Airflow, Luigi and cron Exercise 16: Airflow DAGs

Having been exposed to the toolbox of data engineers, it's now time to jump into the bread and butter of a data engineer's workflow! With ETL, you will learn how to extract raw data from various sources, transform this raw data into actionable insights, and load it into relevant databases ready for consumption!

Exercise 1: Extract Exercise 2: Databronnen Exercise 3: Data ophalen via een API Exercise 4: Lezen uit een database Exercise 5: Transformeren Exercise 6: De huurprijs opsplitsen Exercise 7: Voorbereiden op transformaties Exercise 8: Joinen met ratings Exercise 9: Laden Exercise 10: OLAP of OLTP Exercise 11: Schrijven naar een bestand

Huidige oefening

Exercise 12: Laden in Postgres Exercise 13: Alles samenbrengen Exercise 14: Een DAG definiëren Exercise 15: Airflow instellen Exercise 16: De DAG interpreteren

Cap off all that you've learned in the previous three chapters by completing a real-world data engineering use case from DataCamp! You will perform and schedule an ETL process that transforms raw course rating data, into actionable course recommendations for DataCamp students!

Exercise 1: Course ratings Exercise 2: Exploring the schema Exercise 3: Querying the table Exercise 4: Average rating per course Exercise 5: From ratings to recommendations Exercise 6: Filter out corrupt data Exercise 7: Using the recommender transformation Exercise 8: Scheduling daily jobs Exercise 9: The target table Exercise 10: Defining the DAG Exercise 11: Enable the DAG Exercise 12: Querying the recommendations Exercise 13: Congratulations