Multivariate outlierdetectie
100 personen die in hetzelfde gebied wonen, hebben een claim ingediend omdat hun huizen beschadigd raakten door hagel tijdens de storm van zondagavond. De gegevensset hailinsurance bevat 100 observaties en 2 variabelen. De eerste kolom bevat de uitbetalingen die door de verzekeringsmaatschappij aan elke klant zijn gedaan, terwijl de tweede kolom de meest recente woningprijs is.
In deze oefening ga je eerst klassieke schatters gebruiken op de gegevensset. Vervolgens vergelijk je de resultaten met die van robuuste schatters.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a scatterplot
plot(hailinsurance, xlab = "price house", ylab = "claim")
# Compute the sample mean and sample covariance matrix
clcenter <- colMeans(___)
clcov <- cov(___)
# Add 97.5% tolerance ellipsoid
rad <- sqrt(qchisq(___, ___))
ellipse(center = clcenter, shape = clcov, radius = rad,col = "blue", lty = 2)