LoslegenKostenlos loslegen

Zufällige Testdatensätze erstellen

Bevor du ein ausgefeilteres Kreditvergabemodell entwickelst, ist es wichtig, dass du einen Teil der Kreditdaten in die Hand nimmst, um zu simulieren, wie gut das Modell die Ergebnisse zukünftiger Kreditantragsteller vorhersagen kann.

Wie in der folgenden Abbildung dargestellt, kannst du 75 % der Beobachtungen zum Training und 25 % zum Testen des Modells verwenden.

Die Funktion sample() kann verwendet werden, um eine Zufallsstichprobe von Zeilen zu erzeugen, die in die Trainingsmenge aufgenommen werden. Gib einfach die Gesamtzahl der Beobachtungen und die für das Training benötigte Anzahl an.

Verwende den resultierenden Vektor der Zeilen-IDs, um die Darlehen in Trainings- und Testdatensätze zu unterteilen. Der Datensatz loans steht dir zur Verfügung.

Diese Übung ist Teil des Kurses

Überwachtes Lernen in R: Klassifikation

Kurs anzeigen

Anleitung zur Übung

  • Wende die Funktion nrow() an, um zu ermitteln, wie viele Beobachtungen der Datensatz loans enthält und wie viele davon für eine 75%-Stichprobe benötigt werden.
  • Verwende die Funktion sample(), um einen ganzzahligen Vektor der Zeilen-IDs für die 75%-Stichprobe zu erstellen. Das erste Argument von sample() sollte die Anzahl der Zeilen im Datensatz sein und das zweite die Anzahl der Zeilen, die du in deinem Trainingssatz brauchst.
  • Unterteile die Daten von loans anhand der Zeilen-IDs, um den Trainingsdatensatz zu erstellen. Speichere dies als loans_train.
  • Wähle erneut loans aus, aber diesmal alle Zeilen, die nicht in sample_rows stehen. Speichern Sie dies als loans_test

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Determine the number of rows for training


# Create a random sample of row IDs
sample_rows <- sample(___, ___)

# Create the training dataset
loans_train <- loans[___]

# Create the test dataset
loans_test <- loans[___]
Code bearbeiten und ausführen