De gegevensset splitsen
Om je trainings- en testsets te maken, stel je eerst een seed in met set.seed(). Met een seed leg je het startpunt vast voor willekeurig gegenereerde getallen, zodat elke keer dat je code draait, hetzelfde resultaat wordt geproduceerd. Het voordeel bij steekproeven is dat jij of iemand anders precies dezelfde trainings- en testsets kan reproduceren door dezelfde seed te gebruiken.
Met sample() kun je observaties willekeurig toewijzen aan de trainings- en testset.
Voor deze oefening gebruik je de eerste twee argumenten van de functie sample():
- Het eerste argument is de vector waaruit we waarden trekken. We kiezen willekeurig rijnummers als indexen; je kunt
1:nrow(loan_data)gebruiken om de vector met rijnummers te maken. - Het tweede argument is het aantal te kiezen items. We vullen
2 / 3 * nrow(loan_data)in, omdat we eerst de trainingsset samenstellen.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in R
Oefeninstructies
- Stel een seed in van 567 met de functie
set.seed(). - Sla de rijnummers van de trainingsset op in het object
index_train. Gebruik de functiesample()met een eerste en tweede argument zoals hierboven beschreven. - Maak de trainingsset door de rijnummers in
index_trainte selecteren uit de gegevenssetloan_data. Sla het resultaat op intraining_set. - De testset bevat de rijen die niet in
index_trainzitten. Kopieer de code die je gebruikte om de trainingsset te maken, maar zet een negatief teken (-) direct voorindex_trainbinnen de rechte haken. Sla het resultaat op intest_set.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set seed of 567
# Store row numbers for training set: index_train
# Create training set: training_set
training_set <- loan_data[___, ]
# Create test set: test_set