Filtrar dados corrompidos
Uma etapa recorrente que você pode esperar na fase de transformação é limpar alguns dados incompletos. Neste exercício, você vai analisar dados de cursos, que têm o seguinte formato:
| course_id | title | description | programming_language |
|---|---|---|---|
| 1 | Some Course | … | r |
Você vai inspecionar este DataFrame e garantir que não há valores ausentes usando os métodos .isnull().sum() do DataFrame do pandas. Você vai perceber que a coluna programming_language tem alguns valores ausentes.
Assim, você vai completar a função transform_fill_programming_language() usando o método .fillna() para preencher os valores ausentes.
Este exercício faz parte do curso
Introdução à Engenharia de Dados
Instruções do exercício
- Imprima a quantidade de valores ausentes em
course_data. - Os valores ausentes de
programming_languagedevem ser a linguagem "R". - Imprima novamente a quantidade de valores ausentes por coluna, agora para
transformed.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)