ComenzarEmpieza gratis

Filtrar los datos corruptos

Un paso recurrente que puedes esperar en la fase de transformación sería limpiar algunos datos incompletos. En este ejercicio, vas a ver los datos del curso, que tienen el siguiente formato:

course_id title description programming_language
1 Algún curso r

Vas a inspeccionar este DataFrame y asegurarte de que no faltan valores utilizando los métodos .isnull().sum() del DataFrame de pandas. Verás que en la columna programming_language faltan algunos valores.

Como tal, completarás la función transform_fill_programming_language() utilizando el método .fillna() para rellenar los valores que faltan.

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

Ver curso

Instrucciones del ejercicio

  • Imprime el número de valores perdidos en course_data.
  • Los valores perdidos de la programming_language deben ser el lenguaje "R".
  • Vuelve a imprimir el número de valores perdidos por columna, esta vez para transformed.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

course_data = extract_course_data(db_engines)

# Print out the number of missing values per column
print(____.____().____())

# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
    imputed = course_data.____({"programming_language": "____"})
    return imputed

transformed = transform_fill_programming_language(course_data)

# Print out the number of missing values per column of transformed
print(____)
Editar y ejecutar código