Zufällige Testdatensätze erstellen
Bevor du ein ausgefeilteres Kreditvergabemodell entwickelst, ist es wichtig, dass du einen Teil der Kreditdaten in die Hand nimmst, um zu simulieren, wie gut das Modell die Ergebnisse zukünftiger Kreditantragsteller vorhersagen kann.
Wie in der folgenden Abbildung dargestellt, kannst du 75 % der Beobachtungen zum Training und 25 % zum Testen des Modells verwenden.
Die Funktion sample()
kann verwendet werden, um eine Zufallsstichprobe von Zeilen zu erzeugen, die in die Trainingsmenge aufgenommen werden. Gib einfach die Gesamtzahl der Beobachtungen und die für das Training benötigte Anzahl an.
Verwende den resultierenden Vektor der Zeilen-IDs, um die Darlehen in Trainings- und Testdatensätze zu unterteilen. Der Datensatz loans
steht dir zur Verfügung.
Diese Übung ist Teil des Kurses
Überwachtes Lernen in R: Klassifikation
Anleitung zur Übung
- Wende die Funktion
nrow()
an, um zu ermitteln, wie viele Beobachtungen der Datensatzloans
enthält und wie viele davon für eine 75%-Stichprobe benötigt werden. - Verwende die Funktion
sample()
, um einen ganzzahligen Vektor der Zeilen-IDs für die 75%-Stichprobe zu erstellen. Das erste Argument vonsample()
sollte die Anzahl der Zeilen im Datensatz sein und das zweite die Anzahl der Zeilen, die du in deinem Trainingssatz brauchst. - Unterteile die Daten von
loans
anhand der Zeilen-IDs, um den Trainingsdatensatz zu erstellen. Speichere dies alsloans_train
. - Wähle erneut
loans
aus, aber diesmal alle Zeilen, die nicht insample_rows
stehen. Speichern Sie dies alsloans_test
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Determine the number of rows for training
# Create a random sample of row IDs
sample_rows <- sample(___, ___)
# Create the training dataset
loans_train <- loans[___]
# Create the test dataset
loans_test <- loans[___]