Willekeurige testgegevenssets maken

Voordat je een geavanceerder leenmodel bouwt, is het belangrijk om een deel van de leninggegevens apart te houden om te simuleren hoe goed het de uitkomsten van toekomstige aanvragers voorspelt.

Zoals in de volgende afbeelding te zien is, kun je 75% van de observaties gebruiken voor training en 25% voor het testen van het model.

De functie sample() kan worden gebruikt om een willekeurige steekproef van rijen te genereren voor de trainingsset. Geef simpelweg het totale aantal observaties en het aantal dat je voor training nodig hebt door.

Gebruik de resulterende vector met rij-ID's om de leningen op te splitsen in trainings- en testgegevenssets. De gegevensset loans is beschikbaar om te gebruiken.

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Classificatie

Bekijk cursus

Oefeninstructies

Gebruik de functie nrow() om te bepalen hoeveel observaties er in de gegevensset loans staan, en hoeveel je nodig hebt voor een 75%-steekproef.
Gebruik de functie sample() om een integervector met rij-ID's te maken voor de 75%-steekproef. Het eerste argument van sample() moet het aantal rijen in de gegevensset zijn, en het tweede is het aantal rijen dat je in je trainingsset nodig hebt.
Subset de data loans met de rij-ID's om de trainingsgegevensset te maken. Sla deze op als loans_train.
Subset loans nogmaals, maar selecteer dit keer alle rijen die niet in sample_rows staan. Sla deze op als loans_test

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Determine the number of rows for training


# Create a random sample of row IDs
sample_rows <- sample(___, ___)

# Create the training dataset
loans_train <- loans[___]

# Create the test dataset
loans_test <- loans[___]

Code bewerken en uitvoeren