Willekeurige testgegevenssets maken
Voordat je een geavanceerder leenmodel bouwt, is het belangrijk om een deel van de leninggegevens apart te houden om te simuleren hoe goed het de uitkomsten van toekomstige aanvragers voorspelt.
Zoals in de volgende afbeelding te zien is, kun je 75% van de observaties gebruiken voor training en 25% voor het testen van het model.

De functie sample() kan worden gebruikt om een willekeurige steekproef van rijen te genereren voor de trainingsset. Geef simpelweg het totale aantal observaties en het aantal dat je voor training nodig hebt door.
Gebruik de resulterende vector met rij-ID's om de leningen op te splitsen in trainings- en testgegevenssets. De gegevensset loans is beschikbaar om te gebruiken.
Deze oefening maakt deel uit van de cursus
Supervised Learning in R: Classificatie
Oefeninstructies
- Gebruik de functie
nrow()om te bepalen hoeveel observaties er in de gegevenssetloansstaan, en hoeveel je nodig hebt voor een 75%-steekproef. - Gebruik de functie
sample()om een integervector met rij-ID's te maken voor de 75%-steekproef. Het eerste argument vansample()moet het aantal rijen in de gegevensset zijn, en het tweede is het aantal rijen dat je in je trainingsset nodig hebt. - Subset de data
loansmet de rij-ID's om de trainingsgegevensset te maken. Sla deze op alsloans_train. - Subset
loansnogmaals, maar selecteer dit keer alle rijen die niet insample_rowsstaan. Sla deze op alsloans_test
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Determine the number of rows for training
# Create a random sample of row IDs
sample_rows <- sample(___, ___)
# Create the training dataset
loans_train <- loans[___]
# Create the test dataset
loans_test <- loans[___]