ComeçarComece de graça

Filtrar dados corrompidos

Uma etapa recorrente que você pode esperar na fase de transformação é limpar alguns dados incompletos. Neste exercício, você vai analisar dados de cursos, que têm o seguinte formato:

course_id title description programming_language
1 Some Course r

Você vai inspecionar este DataFrame e garantir que não há valores ausentes usando os métodos .isnull().sum() do DataFrame do pandas. Você vai perceber que a coluna programming_language tem alguns valores ausentes.

Assim, você vai completar a função transform_fill_programming_language() usando o método .fillna() para preencher os valores ausentes.

Este exercício faz parte do curso

Introdução à Engenharia de Dados

Ver curso

Instruções do exercício

  • Imprima a quantidade de valores ausentes em course_data.
  • Os valores ausentes de programming_language devem ser a linguagem "R".
  • Imprima novamente a quantidade de valores ausentes por coluna, agora para transformed.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)
Editar e executar o código