De gegevensset splitsen

Om je trainings- en testsets te maken, stel je eerst een seed in met set.seed(). Met een seed leg je het startpunt vast voor willekeurig gegenereerde getallen, zodat elke keer dat je code draait, hetzelfde resultaat wordt geproduceerd. Het voordeel bij steekproeven is dat jij of iemand anders precies dezelfde trainings- en testsets kan reproduceren door dezelfde seed te gebruiken.

Met sample() kun je observaties willekeurig toewijzen aan de trainings- en testset.

Voor deze oefening gebruik je de eerste twee argumenten van de functie sample():

Het eerste argument is de vector waaruit we waarden trekken. We kiezen willekeurig rijnummers als indexen; je kunt 1:nrow(loan_data) gebruiken om de vector met rijnummers te maken.
Het tweede argument is het aantal te kiezen items. We vullen 2 / 3 * nrow(loan_data) in, omdat we eerst de trainingsset samenstellen.

Deze oefening maakt deel uit van de cursus

Kredietrisicomodellering in R

Bekijk cursus

Oefeninstructies

Stel een seed in van 567 met de functie set.seed().
Sla de rijnummers van de trainingsset op in het object index_train. Gebruik de functie sample() met een eerste en tweede argument zoals hierboven beschreven.
Maak de trainingsset door de rijnummers in index_train te selecteren uit de gegevensset loan_data. Sla het resultaat op in training_set.
De testset bevat de rijen die niet in index_train zitten. Kopieer de code die je gebruikte om de trainingsset te maken, maar zet een negatief teken (-) direct voor index_train binnen de rechte haken. Sla het resultaat op in test_set.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Set seed of 567


# Store row numbers for training set: index_train


# Create training set: training_set
training_set <- loan_data[___, ]

# Create test set: test_set

Code bewerken en uitvoeren