Ridurre il gruppo di maggioranza

Invece di aumentare il numero di casi di frode nell'insieme di dati, puoi rimuovere casualmente i casi legittimi per bilanciare l'insieme di dati. Facciamo under-sampling della classe di maggioranza (Class = 0) nel dataset creditcard. Puoi usare table() nella console per sapere quante transazioni fraudolente e legittime ci sono nel dataset.

Questo esercizio fa parte del corso

Rilevamento delle frodi in R

Visualizza corso

Istruzioni dell'esercizio

Carica la libreria ROSE.
Specifica n_new come il numero richiesto di casi nel dataset sotto-campionati in modo che il nuovo dataset sia composto dal 40% di casi di frode. Per farlo, devi dividere il numero di casi di frode per la percentuale desiderata di casi di frode nel dataset sotto-campionati.
Esegui l'under-sampling del dataset.
Usa table() e prop.table() per verificare il bilanciamento delle classi del dataset sotto-campionati.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Load ROSE
___

# Calculate the required number of cases in the over-sampled dataset
n_new <- ___

# Under-sample
undersampling_result <- ___(formula = ___, data = ___,
                           ___ = ___, ___ = ___, seed = 2018)

# Verify the Class-balance of the under-sampled dataset
undersampled_credit <- undersampling_result$___
___(___(___))

Modifica ed esegui il codice