Multivariate outlierdetectie

100 personen die in hetzelfde gebied wonen, hebben een claim ingediend omdat hun huizen beschadigd raakten door hagel tijdens de storm van zondagavond. De gegevensset hailinsurance bevat 100 observaties en 2 variabelen. De eerste kolom bevat de uitbetalingen die door de verzekeringsmaatschappij aan elke klant zijn gedaan, terwijl de tweede kolom de meest recente woningprijs is.

In deze oefening ga je eerst klassieke schatters gebruiken op de gegevensset. Vervolgens vergelijk je de resultaten met die van robuuste schatters.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a scatterplot
plot(hailinsurance, xlab = "price house", ylab = "claim")

# Compute the sample mean and sample covariance matrix
clcenter <- colMeans(___)
clcov <- cov(___)

# Add 97.5% tolerance ellipsoid
rad <- sqrt(qchisq(___, ___))
ellipse(center = clcenter, shape = clcov, radius = rad,col = "blue", lty = 2)

Code bewerken en uitvoeren