Filter corrupte data eruit
Een terugkerende stap in de transformatiefase is het opschonen van onvolledige data. In deze oefening kijk je naar cursusdata met het volgende formaat:
| course_id | title | description | programming_language |
|---|---|---|---|
| 1 | Some Course | … | r |
Je gaat deze DataFrame inspecteren en controleren of er geen missende waarden zijn met de .isnull().sum()-methoden van de pandas DataFrame. Je zult zien dat de kolom programming_language enkele missende waarden heeft.
Daarom maak je de functie transform_fill_programming_language() af door de .fillna()-methode te gebruiken om missende waarden op te vullen.
Deze oefening maakt deel uit van de cursus
Introductie tot Data Engineering
Oefeninstructies
- Print het aantal missende waarden in
course_data. - Missende waarden van
programming_languagemoeten de taal "R" krijgen. - Print nogmaals het aantal missende waarden per kolom, dit keer voor
transformed.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)