Aan de slagGa gratis aan de slag

Een grotere boom bouwen en evalueren

Eerder heb je een eenvoudige beslisboom gemaakt die de kredietscore van de aanvrager en het aangevraagde leenbedrag gebruikte om de uitkomst van de lening te voorspellen.

Lending Club heeft extra informatie over de aanvragers, zoals woonsituatie (eigen woning of huur), duur van het dienstverband, leendoel en eerdere faillissementen, die kan helpen om nauwkeuriger te voorspellen.

Gebruik alle beschikbare aanvragersgegevens om een geavanceerder leenmodel te bouwen met de eerder gemaakte willekeurige trainingsgegevens. Gebruik dit model daarna om voorspellingen te doen op de testgegevensset en zo de prestatie van het model op toekomstige leningsaanvragen te schatten.

Het pakket rpart is al geladen en de gegevenssets loans_train en loans_test zijn gemaakt.

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Classificatie

Cursus bekijken

Oefeninstructies

  • Gebruik rpart() om een leenmodel te bouwen met de trainingsgegevensset en alle beschikbare voorspellers. Laat het argument control opnieuw ongemoeid.
  • Pas de functie predict() toe op de testgegevensset en maak een vector met voorspelde uitkomsten. Vergeet het argument type niet.
  • Maak een table() om de voorspelde waarden te vergelijken met de werkelijke outcome-waarden.
  • Bereken de nauwkeurigheid van de voorspellingen met de functie mean().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Grow a tree using all of the available applicant data
loan_model <- rpart(___, data = ___, method = "___", control = rpart.control(cp = 0))

# Make predictions on the test dataset
loans_test$pred <- ___

# Examine the confusion matrix
table(___, ___)

# Compute the accuracy on the test dataset
mean(___)
Code bewerken en uitvoeren