1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modelowanie ryzyka kredytowego w Pythonie

Connected

ćwiczenie

Undersampling danych treningowych

Czas samodzielnie przeprowadzić undersampling zbioru treningowego za pomocą kilku linii kodu z biblioteki Pandas. Po zakończeniu możesz sprawdzić liczebność wartości loan_status, żeby zweryfikować wyniki.

X_y_train, count_nondefault i count_default są już załadowane w środowisku roboczym. Zostały utworzone przy użyciu następującego kodu:

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

Wynik .value_counts() dla oryginalnych danych treningowych zostanie wyświetlony automatycznie.

Instrukcje

100 XP
  • Utwórz zbiory danych dla przypadków niespłacenia i spłacenia, zapisując je jako nondefaults i defaults.
  • Pobierz próbkę z nondefaults o liczebności równej count_default i zapisz ją jako nondefaults_under.
  • Połącz nondefaults i defaults za pomocą .concat() i zapisz wynik jako X_y_train_under.
  • Wyświetl .value_counts() statusu kredytu dla nowego zbioru danych.