Beschädigte Daten herausfiltern

Ein Schritt, der in der Transformationsphase immer wieder vorkommt, ist das Bereinigen von unvollständigen Daten. In dieser Übung schaust du dir Kursdaten an, die folgendermaßen aussehen:

course_id	title	description	programming_language
1	Ein Kurs	…	r

Du wirst diesen DataFrame überprüfen und sicherstellen, dass keine fehlenden Werte vorhanden sind, indem du die Methoden pandas und .isnull().sum() des DataFrame verwendest. Du wirst feststellen, dass in der Spalte programming_language ein paar Werte fehlen.

Also wirst du die Funktion transform_fill_programming_language() vervollständigen, indem du die Methode .fillna() verwendest, um fehlende Werte zu ergänzen.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in das Data Engineering</Kurs>

Übungsanweisungen

Gib die Anzahl der fehlenden Werte in course_data aus.
Fehlende Werte im Feld programming_language sollten mit „R“ gekennzeichnet werden.
Gib nochmal die Anzahl der fehlenden Werte pro Spalte aus, diesmal für transformed.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in das Data Engineering</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In this first chapter, you will be exposed to the world of data engineering! Explore the differences between a data engineer and a data scientist, get an overview of the various tools data engineers use and expand your understanding of how cloud technology plays a role in data engineering.

Exercise 1: What is data engineering?Exercise 2: Tasks of the data engineer Exercise 3: Data engineer or data scientist?Exercise 4: Data engineering problems Exercise 5: Tools of the data engineer Exercise 6: Kinds of databases Exercise 7: Processing tasks Exercise 8: Scheduling tools Exercise 9: Cloud providers Exercise 10: Why cloud computing?Exercise 11: Big players in cloud computing Exercise 12: Cloud services

Now that you know the primary differences between a data engineer and a data scientist, get ready to explore the data engineer's toolbox! Learn in detail about different types of databases data engineers use, how parallel computing is a cornerstone of the data engineer's toolkit, and how to schedule data processing jobs using scheduling frameworks.

Exercise 1: Databases Exercise 2: SQL vs NoSQL Exercise 3: The database schema Exercise 4: Joining on relations Exercise 5: Star schema diagram Exercise 6: What is parallel computing Exercise 7: Why parallel computing?Exercise 8: From task to subtasks Exercise 9: Using a DataFrame Exercise 10: Parallel computation frameworks Exercise 11: Spark, Hadoop and Hive Exercise 12: A PySpark groupby Exercise 13: Running PySpark files Exercise 14: Workflow scheduling frameworks Exercise 15: Airflow, Luigi and cron Exercise 16: Airflow DAGs

Having been exposed to the toolbox of data engineers, it's now time to jump into the bread and butter of a data engineer's workflow! With ETL, you will learn how to extract raw data from various sources, transform this raw data into actionable insights, and load it into relevant databases ready for consumption!

Exercise 1: Extract Exercise 2: Data sources Exercise 3: Fetch from an API Exercise 4: Read from a database Exercise 5: Transform Exercise 6: Splitting the rental rate Exercise 7: Prepare for transformations Exercise 8: Joining with ratings Exercise 9: Loading Exercise 10: OLAP or OLTP Exercise 11: Writing to a file Exercise 12: Load into Postgres Exercise 13: Putting it all together Exercise 14: Defining a DAG Exercise 15: Setting up Airflow Exercise 16: Interpreting the DAG

Cap off all that you've learned in the previous three chapters by completing a real-world data engineering use case from DataCamp! You will perform and schedule an ETL process that transforms raw course rating data, into actionable course recommendations for DataCamp students!

Exercise 1: Kursbewertungen Exercise 2: Das Schema erkunden Exercise 3: Die Tabelle abfragen Exercise 4: Durchschnittliche Bewertung pro Kurs Exercise 5: Von Bewertungen bis zu Empfehlungen Exercise 6: Beschädigte Daten herausfiltern

Aktuelle Übung

Exercise 7: Die Empfehlungstransformation nutzen Exercise 8: Tägliche Aufgaben planen Exercise 9: Die Zieltabelle Exercise 10: Den DAG definieren Exercise 11: Den DAG aktivieren Exercise 12: Empfehlungen abfragen Exercise 13: Glückwunsch!