Création d'ensembles de données de test aléatoires

Avant d'élaborer un modèle de prêt plus sophistiqué, il est important de conserver une partie des données relatives aux prêts afin de simuler la capacité du modèle à prédire les résultats des futurs demandeurs de prêt.

Comme le montre l'image suivante, vous pouvez utiliser 75 % des observations pour la formation et 25 % pour le test du modèle.

La fonction sample() peut être utilisée pour générer un échantillon aléatoire de lignes à inclure dans l'ensemble d'apprentissage. Il suffit de lui fournir le nombre total d'observations et le nombre nécessaire à la formation.

Utilisez le vecteur d'ID de ligne résultant pour subdiviser les prêts en ensembles de données de formation et de test. Le jeu de données loans est à votre disposition.

Cet exercice fait partie du cours

<cours>Apprentissage supervisé en R : Classification</cours>

Voir le cours

Instructions de l’exercice

Appliquez la fonction nrow() pour déterminer le nombre d'observations contenues dans l'ensemble de données loans et le nombre nécessaire pour obtenir un échantillon de 75 %.
Utilisez la fonction sample() pour créer un vecteur entier d'ID de ligne pour l'échantillon 75%. Le premier argument de sample() doit être le nombre de lignes de l'ensemble de données, et le second est le nombre de lignes dont vous avez besoin dans votre ensemble d'apprentissage.
Sous-ensemble des données loans à l'aide des identifiants de ligne pour créer l'ensemble de données d'apprentissage. Enregistrez ceci sous loans_train.
Reprenez le sous-ensemble loans, mais sélectionnez cette fois toutes les lignes qui ne se trouvent pas dans sample_rows. Enregistrez ceci sous .

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Determine the number of rows for training


# Create a random sample of row IDs
sample_rows <- sample(___, ___)

# Create the training dataset
loans_train <- loans[___]

# Create the test dataset
loans_test <- loans[___]

Modifier et exécuter le code