CommencerCommencer gratuitement

Traitement des données manquantes

Les données de certains donneurs potentiels sont manquantes sur le site age. Malheureusement, R exclura tous les cas avec des valeurs NA lors de la construction d'un modèle de régression.

Une solution consiste à remplacer, ou à imputer, les valeurs manquantes par une valeur estimée. Ensuite, vous pouvez également créer un indicateur de données manquantes pour modéliser la possibilité que les cas avec des données manquantes soient différents d'une certaine manière de ceux qui n'en ont pas.

Le cadre de données donors est chargé dans votre espace de travail.

Cet exercice fait partie du cours

Apprentissage supervisé en R : Classification

Afficher le cours

Instructions

  • Utilisez summary() sur donors$age pour trouver l'âge moyen des prospects dont les données ne sont pas manquantes.
  • Utilisez ifelse() et le test is.na(donors$age) pour imputer la moyenne (arrondie à 2 décimales) pour les cas où age est manquant. Veillez également à ignorer NAs.
  • Créez une variable nominale binaire nommée missing_age indiquant la présence de données manquantes à l'aide d'un autre appel ifelse() et du même test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Find the average age among non-missing values
summary(___)

# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)

# Create missing value indicator for age
donors$missing_age <- ___
Modifier et exécuter le code