LoslegenKostenlos loslegen

Beschädigte Daten herausfiltern

Ein Schritt, der in der Transformationsphase immer wieder vorkommt, ist das Bereinigen von unvollständigen Daten. In dieser Übung schaust du dir Kursdaten an, die folgendermaßen aussehen:

course_id title description programming_language
1 Ein Kurs r

Du wirst diesen DataFrame überprüfen und sicherstellen, dass keine fehlenden Werte vorhanden sind, indem du die Methoden pandas und .isnull().sum() des DataFrame verwendest. Du wirst feststellen, dass in der Spalte programming_language ein paar Werte fehlen.

Also wirst du die Funktion transform_fill_programming_language() vervollständigen, indem du die Methode .fillna() verwendest, um fehlende Werte zu ergänzen.

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Kurs anzeigen

Anleitung zur Übung

  • Gib die Anzahl der fehlenden Werte in course_data aus.
  • Fehlende Werte im Feld programming_language sollten mit „R“ gekennzeichnet werden.
  • Gib nochmal die Anzahl der fehlenden Werte pro Spalte aus, diesmal für transformed.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)
Code bearbeiten und ausführen