Undersampling danych treningowych

Czas samodzielnie przeprowadzić undersampling zbioru treningowego za pomocą kilku linii kodu z biblioteki Pandas. Po zakończeniu możesz sprawdzić liczebność wartości loan_status, żeby zweryfikować wyniki.

X_y_train, count_nondefault i count_default są już załadowane w środowisku roboczym. Zostały utworzone przy użyciu następującego kodu:

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

Wynik .value_counts() dla oryginalnych danych treningowych zostanie wyświetlony automatycznie.

Utwórz zbiory danych dla przypadków niespłacenia i spłacenia, zapisując je jako nondefaults i defaults.
Pobierz próbkę z nondefaults o liczebności równej count_default i zapisz ją jako nondefaults_under.
Połącz nondefaults i defaults za pomocą .concat() i zapisz wynik jako X_y_train_under.
Wyświetl .value_counts() statusu kredytu dla nowego zbioru danych.

ćwiczenie

Undersampling danych treningowych

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie