Beschädigte Daten herausfiltern
Ein Schritt, der in der Transformationsphase immer wieder vorkommt, ist das Bereinigen von unvollständigen Daten. In dieser Übung schaust du dir Kursdaten an, die folgendermaßen aussehen:
| course_id | title | description | programming_language |
|---|---|---|---|
| 1 | Ein Kurs | … | r |
Du wirst diesen DataFrame überprüfen und sicherstellen, dass keine fehlenden Werte vorhanden sind, indem du die Methoden pandas und .isnull().sum() des DataFrame verwendest. Du wirst feststellen, dass in der Spalte programming_language ein paar Werte fehlen.
Also wirst du die Funktion transform_fill_programming_language() vervollständigen, indem du die Methode .fillna() verwendest, um fehlende Werte zu ergänzen.
Diese Übung ist Teil des Kurses
Einführung in das Data Engineering
Anleitung zur Übung
- Gib die Anzahl der fehlenden Werte in
course_dataaus. - Fehlende Werte im Feld
programming_languagesollten mit „R“ gekennzeichnet werden. - Gib nochmal die Anzahl der fehlenden Werte pro Spalte aus, diesmal für
transformed.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)