Een grotere boom bouwen en evalueren
Eerder heb je een eenvoudige beslisboom gemaakt die de kredietscore van de aanvrager en het aangevraagde leenbedrag gebruikte om de uitkomst van de lening te voorspellen.
Lending Club heeft extra informatie over de aanvragers, zoals woonsituatie (eigen woning of huur), duur van het dienstverband, leendoel en eerdere faillissementen, die kan helpen om nauwkeuriger te voorspellen.
Gebruik alle beschikbare aanvragersgegevens om een geavanceerder leenmodel te bouwen met de eerder gemaakte willekeurige trainingsgegevens. Gebruik dit model daarna om voorspellingen te doen op de testgegevensset en zo de prestatie van het model op toekomstige leningsaanvragen te schatten.
Het pakket rpart is al geladen en de gegevenssets loans_train en loans_test zijn gemaakt.
Deze oefening maakt deel uit van de cursus
Supervised Learning in R: Classificatie
Oefeninstructies
- Gebruik
rpart()om een leenmodel te bouwen met de trainingsgegevensset en alle beschikbare voorspellers. Laat het argumentcontrolopnieuw ongemoeid. - Pas de functie
predict()toe op de testgegevensset en maak een vector met voorspelde uitkomsten. Vergeet het argumenttypeniet. - Maak een
table()om de voorspelde waarden te vergelijken met de werkelijkeoutcome-waarden. - Bereken de nauwkeurigheid van de voorspellingen met de functie
mean().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Grow a tree using all of the available applicant data
loan_model <- rpart(___, data = ___, method = "___", control = rpart.control(cp = 0))
# Make predictions on the test dataset
loans_test$pred <- ___
# Examine the confusion matrix
table(___, ___)
# Compute the accuracy on the test dataset
mean(___)