Beschädigte Daten rausfiltern
Ein Schritt, der in der Transformationsphase immer wieder vorkommt, ist das Bereinigen von unvollständigen Daten. In dieser Übung schaust du dir Kursdaten an, die so aussehen:
course_id | title | Beschreibung: | Programmiersprache |
---|---|---|---|
1 | Einige Kurse | ‹#› | r |
Du wirst diesen DataFrame checken und sicherstellen, dass keine fehlenden Werte vorhanden sind, indem du die Methoden „ pandas
“ und „ .isnull().sum()
“ des DataFrame verwendest. Du wirst feststellen, dass in der Spalte „ programming_language
“ ein paar Werte fehlen.
Also füllst du die Funktion „ transform_fill_programming_language()
” aus, indem du die Methode „ .fillna()
” benutzt, um fehlende Werte zu ergänzen.
Diese Übung ist Teil des Kurses
Einführung in das Data Engineering
Anleitung zur Übung
- Druck die Anzahl der fehlenden Werte in „
course_data
“ aus. - Fehlende Werte im Feld „
programming_language
“ sollten mit „R“ gekennzeichnet werden. - Druck die Anzahl der fehlenden Werte pro Spalte nochmal aus, diesmal für „
transformed
“.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)