Undersampling dei dati di training
È il momento di eseguire tu stesso l’undersampling del set di training con poche righe di codice in Pandas. Una volta completato l’undersampling, puoi controllare le frequenze di loan_status per verificare i risultati.
X_y_train, count_nondefault e count_default sono già caricati nell’area di lavoro. Sono stati creati con il seguente codice:
X_y_train = pd.concat([X_train.reset_index(drop = True),
y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()
Il risultato di .value_counts() per i dati di training originali verrà stampato automaticamente.
Questo esercizio fa parte del corso
Credit Risk Modeling in Python
Istruzioni dell'esercizio
- Crea gli insiemi di dati dei non-default e dei default e salvali come
nondefaultsedefaults. - Esegui un campionamento di
nondefaultsfino allo stesso numero dicount_defaulte salvalo comenondefaults_under. - Concatena
nondefaultsedefaultsusando.concat()e salva il risultato comeX_y_train_under. - Stampa le
.value_counts()di loan status per il nuovo insieme di dati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]
# Undersample the non-defaults
____ = nondefaults.sample(____)
# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
____.reset_index(drop = True)], axis = 0)
# Print the value counts for loan status
print(____[____].____())