Undersampling dei dati di training

È il momento di eseguire tu stesso l’undersampling del set di training con poche righe di codice in Pandas. Una volta completato l’undersampling, puoi controllare le frequenze di loan_status per verificare i risultati.

X_y_train, count_nondefault e count_default sono già caricati nell’area di lavoro. Sono stati creati con il seguente codice:

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

Il risultato di .value_counts() per i dati di training originali verrà stampato automaticamente.

Questo esercizio fa parte del corso

Credit Risk Modeling in Python

Visualizza corso

Istruzioni dell'esercizio

Crea gli insiemi di dati dei non-default e dei default e salvali come nondefaults e defaults.
Esegui un campionamento di nondefaults fino allo stesso numero di count_default e salvalo come nondefaults_under.
Concatena nondefaults e defaults usando .concat() e salva il risultato come X_y_train_under.
Stampa le .value_counts() di loan status per il nuovo insieme di dati.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]

# Undersample the non-defaults
____ = nondefaults.sample(____)

# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
                             ____.reset_index(drop = True)], axis = 0)

# Print the value counts for loan status
print(____[____].____())

Modifica ed esegui il codice