Détection d'observations aberrantes multivariées
Cent personnes vivant dans la même zone ont déposé une déclaration, car leurs maisons ont été endommagées par la grêle lors de l’orage de dimanche soir. Le jeu de données hailinsurance contient 100 observations et 2 variables. La première colonne correspond aux indemnisations versées par la compagnie d’assurance à chaque assuré, tandis que la seconde indique le prix de vente le plus récent de la maison.
Dans cet exercice, vous allez d’abord utiliser des estimateurs classiques sur ce jeu de données. Vous comparerez ensuite ces résultats avec ceux obtenus à l’aide d’estimateurs robustes.
Cet exercice fait partie du cours
Détection de fraude en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a scatterplot
plot(hailinsurance, xlab = "price house", ylab = "claim")
# Compute the sample mean and sample covariance matrix
clcenter <- colMeans(___)
clcov <- cov(___)
# Add 97.5% tolerance ellipsoid
rad <- sqrt(qchisq(___, ___))
ellipse(center = clcenter, shape = clcov, radius = rad,col = "blue", lty = 2)