Construire et évaluer un arbre plus grand
Auparavant, vous avez créé un arbre de décision simple qui utilise la cote de crédit du demandeur et le montant du prêt demandé pour prédire l'issue du prêt.
Lending Club dispose d'informations supplémentaires sur les candidats, telles que le statut de propriétaire, la durée de l'emploi, l'objet du prêt et les faillites antérieures, qui peuvent s'avérer utiles pour établir des prévisions plus précises.
En utilisant toutes les données disponibles sur les demandeurs, construisez un modèle de prêt plus sophistiqué à l'aide de l'ensemble de données de formation aléatoire créé précédemment. Ensuite, utilisez ce modèle pour faire des prédictions sur l'ensemble de données de test afin d'estimer la performance du modèle sur les futures demandes de prêt.
Le paquet rpart
a été préchargé et les ensembles de données loans_train
et loans_test
ont été créés.
Cet exercice fait partie du cours
Apprentissage supervisé en R : Classification
Instructions
- Utilisez
rpart()
pour construire un modèle de prêt à l'aide de l'ensemble de données d'apprentissage et de tous les prédicteurs disponibles. Encore une fois, ne vous occupez pas de l'argumentcontrol
. - En appliquant la fonction
predict()
à l'ensemble de données de test, vous créez un vecteur de résultats prédits. N'oubliez pas l'argumenttype
. - Créez un site
table()
pour comparer les valeurs prédites aux valeurs réelles deoutcome
. - Calculez la précision des prédictions à l'aide de la fonction
mean()
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Grow a tree using all of the available applicant data
loan_model <- rpart(___, data = ___, method = "___", control = rpart.control(cp = 0))
# Make predictions on the test dataset
loans_test$pred <- ___
# Examine the confusion matrix
table(___, ___)
# Compute the accuracy on the test dataset
mean(___)