ComeçarComece gratuitamente

Filtrar dados corrompidos

Uma etapa recorrente que você pode esperar na fase de transformação seria a limpeza de alguns dados incompletos. Neste exercício, você analisará os dados do curso, que têm o seguinte formato:

course_id título description programming_language
1 Alguns cursos r

Você inspecionará esse DataFrame e verificará se não há valores ausentes usando os métodos pandas do DataFrame .isnull().sum(). Você verá que a coluna programming_language tem alguns valores ausentes.

Dessa forma, você completará a função transform_fill_programming_language() usando o método .fillna() para preencher os valores ausentes.

Este exercício faz parte do curso

Introdução à engenharia de dados

Ver Curso

Instruções de exercício

  • Imprima o número de valores ausentes em course_data.
  • Os valores ausentes do site programming_language devem ser o idioma "R".
  • Imprima mais uma vez o número de valores ausentes por coluna, desta vez para transformed.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)
Editar e executar código