Combiner ROS et RUS
Vous pouvez combiner le sur-échantillonnage aléatoire (ROS) et le sous-échantillonnage aléatoire (RUS) pour équilibrer la distribution des classes. Vous allez rééquilibrer l’ensemble de données de sorte que le nouveau jeu contienne 10 000 transactions dont 30 % sont frauduleuses.
Rappelez-vous : vous pouvez toujours charger ROSE dans la console et saisir ?ovun.sample pour vérifier quels arguments la fonction accepte.
Cet exercice fait partie du cours
Détection de fraude en R
Instructions
- Chargez le package
ROSE. - Affectez à
n_newla valeur 10 000 et àfraud_fractionla valeur 30 %. - Utilisez à la fois le sur- et le sous-échantillonnage.
- Vérifiez l’équilibre des classes du jeu de données sous-échantillonné.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load ROSE
___
# Specify the desired number of cases in the balanced dataset and the fraction of fraud cases
n_new <- ___
fraud_fraction <- ___
# Combine ROS & RUS!
sampling_result <- ___(___ = ___, ___ = ___,
___ = ___, ___ = ___, p = ___, seed = 2018)
# Verify the Class-balance of the re-balanced dataset
sampled_credit <- ___
prop.table(___(___))