Filtrar los datos corruptos
Un paso recurrente que puedes esperar en la fase de transformación sería limpiar algunos datos incompletos. En este ejercicio, vas a ver los datos del curso, que tienen el siguiente formato:
course_id | title | description | programming_language |
---|---|---|---|
1 | Algún curso | … | r |
Vas a inspeccionar este DataFrame y asegurarte de que no faltan valores utilizando los métodos .isnull().sum()
del DataFrame de pandas
. Verás que en la columna programming_language
faltan algunos valores.
Como tal, completarás la función transform_fill_programming_language()
utilizando el método .fillna()
para rellenar los valores que faltan.
Este ejercicio forma parte del curso
Introducción a la ingeniería de datos
Instrucciones del ejercicio
- Imprime el número de valores perdidos en
course_data
. - Los valores perdidos de la
programming_language
deben ser el lenguaje "R". - Vuelve a imprimir el número de valores perdidos por columna, esta vez para
transformed
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)