Aan de slagGa gratis aan de slag

Validatieset-aanpak

In de les over lineaire regressie heb je een lineair regressiemodel gefit dat het hartgewicht van katten verklaart op basis van hun lichaamsgewicht. De recruiter vraagt je om te beoordelen hoe goed je model is.

Om deze vraag te beantwoorden, heb je voorspellingen nodig die je kunt vergelijken met de echte waarden. Bij de validatieset-aanpak splits je je data in twee delen.

Om dat te doen, neem je eerst een steekproef van bijvoorbeeld 80% van de rijnummers. Gebruik de gekozen rijnummers om de trainingset te selecteren. De rest van het data frame kun je gebruiken voor testen.

Onthoud dat:

rows <- c(1, 3)
df[-rows, ]

alles behalve de eerste en derde rij selecteert.

De cats-gegevensset is beschikbaar in je omgeving.

Deze oefening maakt deel uit van de cursus

Oefenen met statistiek-vragen voor sollicitaties in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

set.seed(123)

# Generate train row numbers
train_rows <- ___(nrow(___), round(0.8 * ___(cats)))
Code bewerken en uitvoeren