CommencerCommencer gratuitement

Imputation par régression linéaire

Parfois, vous pouvez vous appuyer sur votre connaissance du domaine, des travaux antérieurs ou tout simplement votre bon sens pour décrire les relations entre les variables de vos données. Dans ces cas-là, l’imputation basée sur des modèles est une excellente solution, car elle vous permet d’imputer chaque variable selon un modèle statistique que vous définissez vous‑même, en tenant compte des hypothèses que vous avez sur la façon dont les variables s’influencent mutuellement.

Pour les variables continues, un modèle très utilisé est la régression linéaire. Elle ne vous limite pas aux relations strictement linéaires pour autant ! Vous pouvez toujours inclure le carré ou le logarithme d’une variable parmi les prédicteurs. Dans cet exercice, vous allez utiliser le package simputation pour effectuer une imputation unique par régression linéaire sur les données tao et analyser les résultats. Essayons !

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the simputation package
___

# Impute air_temp and humidity with linear regression
formula <- ____
tao_imp <- ___(tao, formula)
Modifier et exécuter le code