Tratamiento de los datos que faltan
A algunos de los posibles donantes les faltan datos de age
. Por desgracia, R excluirá todos los casos con valores NA
al construir un modelo de regresión.
Una solución consiste en sustituir, o imputar, los valores que faltan por un valor estimado. Después de hacerlo, también puedes crear un indicador de datos que faltan para modelar la posibilidad de que los casos con datos que faltan sean diferentes de algún modo de los que no los tienen.
El marco de datos donors
se carga en tu espacio de trabajo.
Este ejercicio forma parte del curso
Aprendizaje supervisado en R: Clasificación
Instrucciones del ejercicio
- Utiliza
summary()
endonors$age
para encontrar la edad media de los prospectos con datos no ausentes. - Utiliza
ifelse()
y la pruebais.na(donors$age)
para imputar la media (redondeada a 2 decimales) en los casos en los que falteage
. Asegúrate de ignorar tambiénNA
s. - Crea una variable ficticia binaria llamada
missing_age
que indique la presencia de datos omitidos utilizando otra llamada aifelse()
y la misma prueba.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Find the average age among non-missing values
summary(___)
# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)
# Create missing value indicator for age
donors$missing_age <- ___