Construire et évaluer un arbre plus grand

Auparavant, vous avez créé un arbre de décision simple qui utilise la cote de crédit du demandeur et le montant du prêt demandé pour prédire l'issue du prêt.

Lending Club dispose d'informations supplémentaires sur les candidats, telles que le statut de propriétaire, la durée de l'emploi, l'objet du prêt et les faillites antérieures, qui peuvent s'avérer utiles pour établir des prévisions plus précises.

En utilisant toutes les données disponibles sur les demandeurs, construisez un modèle de prêt plus sophistiqué à l'aide de l'ensemble de données de formation aléatoire créé précédemment. Ensuite, utilisez ce modèle pour faire des prédictions sur l'ensemble de données de test afin d'estimer la performance du modèle sur les futures demandes de prêt.

Le paquet rpart a été préchargé et les ensembles de données loans_train et loans_test ont été créés.

Cet exercice fait partie du cours

<cours>Apprentissage supervisé en R : Classification</cours>

Voir le cours

Instructions de l’exercice

Utilisez rpart() pour construire un modèle de prêt à l'aide de l'ensemble de données d'apprentissage et de tous les prédicteurs disponibles. Encore une fois, ne vous occupez pas de l'argument control.
En appliquant la fonction predict() à l'ensemble de données de test, vous créez un vecteur de résultats prédits. N'oubliez pas l'argument type.
Créez un site table() pour comparer les valeurs prédites aux valeurs réelles de outcome.
Calculez la précision des prédictions à l'aide de la fonction mean().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Grow a tree using all of the available applicant data
loan_model <- rpart(___, data = ___, method = "___", control = rpart.control(cp = 0))

# Make predictions on the test dataset
loans_test$pred <- ___

# Examine the confusion matrix
table(___, ___)

# Compute the accuracy on the test dataset
mean(___)

Modifier et exécuter le code