LoslegenKostenlos loslegen

Beschädigte Daten rausfiltern

Ein Schritt, der in der Transformationsphase immer wieder vorkommt, ist das Bereinigen von unvollständigen Daten. In dieser Übung schaust du dir Kursdaten an, die so aussehen:

course_id title Beschreibung: Programmiersprache
1 Einige Kurse ‹#› r

Du wirst diesen DataFrame checken und sicherstellen, dass keine fehlenden Werte vorhanden sind, indem du die Methoden „ pandas “ und „ .isnull().sum() “ des DataFrame verwendest. Du wirst feststellen, dass in der Spalte „ programming_language “ ein paar Werte fehlen.

Also füllst du die Funktion „ transform_fill_programming_language() ” aus, indem du die Methode „ .fillna() ” benutzt, um fehlende Werte zu ergänzen.

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Kurs anzeigen

Anleitung zur Übung

  • Druck die Anzahl der fehlenden Werte in „ course_data “ aus.
  • Fehlende Werte im Feld „ programming_language “ sollten mit „R“ gekennzeichnet werden.
  • Druck die Anzahl der fehlenden Werte pro Spalte nochmal aus, diesmal für „ transformed “.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)
Code bearbeiten und ausführen