Filtrar dados corrompidos
Uma etapa recorrente que você pode esperar na fase de transformação seria a limpeza de alguns dados incompletos. Neste exercício, você analisará os dados do curso, que têm o seguinte formato:
course_id | título | description | programming_language |
---|---|---|---|
1 | Alguns cursos | … | r |
Você inspecionará esse DataFrame e verificará se não há valores ausentes usando os métodos pandas
do DataFrame .isnull().sum()
. Você verá que a coluna programming_language
tem alguns valores ausentes.
Dessa forma, você completará a função transform_fill_programming_language()
usando o método .fillna()
para preencher os valores ausentes.
Este exercício faz parte do curso
Introdução à engenharia de dados
Instruções de exercício
- Imprima o número de valores ausentes em
course_data
. - Os valores ausentes do site
programming_language
devem ser o idioma "R". - Imprima mais uma vez o número de valores ausentes por coluna, desta vez para
transformed
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)