ComenzarEmpieza gratis

Tratamiento de los datos que faltan

A algunos de los posibles donantes les faltan datos de age. Por desgracia, R excluirá todos los casos con valores NA al construir un modelo de regresión.

Una solución consiste en sustituir, o imputar, los valores que faltan por un valor estimado. Después de hacerlo, también puedes crear un indicador de datos que faltan para modelar la posibilidad de que los casos con datos que faltan sean diferentes de algún modo de los que no los tienen.

El marco de datos donors se carga en tu espacio de trabajo.

Este ejercicio forma parte del curso

Aprendizaje supervisado en R: Clasificación

Ver curso

Instrucciones del ejercicio

  • Utiliza summary() en donors$age para encontrar la edad media de los prospectos con datos no ausentes.
  • Utiliza ifelse() y la prueba is.na(donors$age) para imputar la media (redondeada a 2 decimales) en los casos en los que falte age. Asegúrate de ignorar también NAs.
  • Crea una variable ficticia binaria llamada missing_age que indique la presencia de datos omitidos utilizando otra llamada a ifelse() y la misma prueba.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Find the average age among non-missing values
summary(___)

# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)

# Create missing value indicator for age
donors$missing_age <- ___
Editar y ejecutar código