Ein größerer Baum: aufbauen und auswerten

Zuvor hast du einen einfachen Entscheidungsbaum erstellt, der die Kreditwürdigkeit der Antragstellerin bzw. des Antragstellers und den beantragten Kreditbetrag nutzte, um den Kreditausgang vorherzusagen.

Lending Club hat zusätzliche Informationen über die Antragstellenden, wie z. B. den Wohneigentumsstatus, die Beschäftigungsdauer, den Kreditverwendungszweck und frühere Insolvenzen, die für genauere Vorhersagen hilfreich sein können.

Nutze alle verfügbaren Antragsdaten und baue mit dem zuvor erstellten zufälligen Trainingsdatensatz ein ausgefeilteres Kreditmodell. Verwende dieses Modell anschließend, um auf dem Testdatensatz Vorhersagen zu treffen und so die Leistung des Modells für zukünftige Kreditanträge abzuschätzen.

Das Paket rpart ist vorab geladen, und die Datensätze loans_train und loans_test wurden erstellt.

Diese Übung ist Teil des Kurses

<Kurs>Überwachtes Lernen in R: Klassifikation</Kurs>

Kurs ansehen

Übungsanweisungen

Verwende rpart(), um mit dem Trainingsdatensatz und allen verfügbaren Prädiktoren ein Kreditmodell zu erstellen. Lass das Argument control wie zuvor unverändert.
Erzeuge, indem du predict() auf den Testdatensatz anwendest, einen Vektor mit vorhergesagten Ergebnissen. Vergiss das Argument type nicht.
Erstelle mit table() einen Vergleich der vorhergesagten Werte mit den tatsächlichen outcome-Werten.
Berechne die Genauigkeit der Vorhersagen mit der Funktion mean().

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Grow a tree using all of the available applicant data
loan_model <- rpart(___, data = ___, method = "___", control = rpart.control(cp = 0))

# Make predictions on the test dataset
loans_test$pred <- ___

# Examine the confusion matrix
table(___, ___)

# Compute the accuracy on the test dataset
mean(___)

Code bearbeiten und ausführen