Aan de slagGa gratis aan de slag

Filter corrupte data eruit

Een terugkerende stap in de transformatiefase is het opschonen van onvolledige data. In deze oefening kijk je naar cursusdata met het volgende formaat:

course_id title description programming_language
1 Some Course r

Je gaat deze DataFrame inspecteren en controleren of er geen missende waarden zijn met de .isnull().sum()-methoden van de pandas DataFrame. Je zult zien dat de kolom programming_language enkele missende waarden heeft.

Daarom maak je de functie transform_fill_programming_language() af door de .fillna()-methode te gebruiken om missende waarden op te vullen.

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

Cursus bekijken

Oefeninstructies

  • Print het aantal missende waarden in course_data.
  • Missende waarden van programming_language moeten de taal "R" krijgen.
  • Print nogmaals het aantal missende waarden per kolom, dit keer voor transformed.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)
Code bewerken en uitvoeren