Ridurre il gruppo di maggioranza
Invece di aumentare il numero di casi di frode nell'insieme di dati, puoi rimuovere casualmente i casi legittimi per bilanciare l'insieme di dati. Facciamo under-sampling della classe di maggioranza (Class = 0) nel dataset creditcard. Puoi usare table() nella console per sapere quante transazioni fraudolente e legittime ci sono nel dataset.
Questo esercizio fa parte del corso
Rilevamento delle frodi in R
Istruzioni dell'esercizio
- Carica la libreria ROSE.
- Specifica
n_newcome il numero richiesto di casi nel dataset sotto-campionati in modo che il nuovo dataset sia composto dal 40% di casi di frode. Per farlo, devi dividere il numero di casi di frode per la percentuale desiderata di casi di frode nel dataset sotto-campionati. - Esegui l'under-sampling del dataset.
- Usa
table()eprop.table()per verificare il bilanciamento delle classi del dataset sotto-campionati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load ROSE
___
# Calculate the required number of cases in the over-sampled dataset
n_new <- ___
# Under-sample
undersampling_result <- ___(formula = ___, data = ___,
___ = ___, ___ = ___, seed = 2018)
# Verify the Class-balance of the under-sampled dataset
undersampled_credit <- undersampling_result$___
___(___(___))