Traitement des données manquantes
Les données de certains donneurs potentiels sont manquantes sur le site age
. Malheureusement, R exclura tous les cas avec des valeurs NA
lors de la construction d'un modèle de régression.
Une solution consiste à remplacer, ou à imputer, les valeurs manquantes par une valeur estimée. Ensuite, vous pouvez également créer un indicateur de données manquantes pour modéliser la possibilité que les cas avec des données manquantes soient différents d'une certaine manière de ceux qui n'en ont pas.
Le cadre de données donors
est chargé dans votre espace de travail.
Cet exercice fait partie du cours
Apprentissage supervisé en R : Classification
Instructions
- Utilisez
summary()
surdonors$age
pour trouver l'âge moyen des prospects dont les données ne sont pas manquantes. - Utilisez
ifelse()
et le testis.na(donors$age)
pour imputer la moyenne (arrondie à 2 décimales) pour les cas oùage
est manquant. Veillez également à ignorerNA
s. - Créez une variable nominale binaire nommée
missing_age
indiquant la présence de données manquantes à l'aide d'un autre appelifelse()
et du même test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Find the average age among non-missing values
summary(___)
# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)
# Create missing value indicator for age
donors$missing_age <- ___