Création d'ensembles de données de test aléatoires
Avant d'élaborer un modèle de prêt plus sophistiqué, il est important de conserver une partie des données relatives aux prêts afin de simuler la capacité du modèle à prédire les résultats des futurs demandeurs de prêt.
Comme le montre l'image suivante, vous pouvez utiliser 75 % des observations pour la formation et 25 % pour le test du modèle.
La fonction sample()
peut être utilisée pour générer un échantillon aléatoire de lignes à inclure dans l'ensemble d'apprentissage. Il suffit de lui fournir le nombre total d'observations et le nombre nécessaire à la formation.
Utilisez le vecteur d'ID de ligne résultant pour subdiviser les prêts en ensembles de données de formation et de test. Le jeu de données loans
est à votre disposition.
Cet exercice fait partie du cours
Apprentissage supervisé en R : Classification
Instructions
- Appliquez la fonction
nrow()
pour déterminer le nombre d'observations contenues dans l'ensemble de donnéesloans
et le nombre nécessaire pour obtenir un échantillon de 75 %. - Utilisez la fonction
sample()
pour créer un vecteur entier d'ID de ligne pour l'échantillon 75%. Le premier argument desample()
doit être le nombre de lignes de l'ensemble de données, et le second est le nombre de lignes dont vous avez besoin dans votre ensemble d'apprentissage. - Sous-ensemble des données
loans
à l'aide des identifiants de ligne pour créer l'ensemble de données d'apprentissage. Enregistrez ceci sousloans_train
. - Reprenez le sous-ensemble
loans
, mais sélectionnez cette fois toutes les lignes qui ne se trouvent pas danssample_rows
. Enregistrez ceci sous .
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Determine the number of rows for training
# Create a random sample of row IDs
sample_rows <- sample(___, ___)
# Create the training dataset
loans_train <- loans[___]
# Create the test dataset
loans_test <- loans[___]