Techniki ponownego próbkowania

W poprzednim ćwiczeniu zobaczyłeś, jak niezbalansowanie klas może wpływać na wyniki macierzy pomyłek. W tym ćwiczeniu przećwiczysz techniki ponownego próbkowania, aby zbadać, jak różne podejścia do próbkowania mogą wpłynąć na zbiór danych z niezbalansowanymi klasami, taki jak loan_data. Używając funkcji resample() z biblioteki sklearn: dopasowanie liczby wierszy do klasy większościowej nazywamy nadpróbkowaniem (ang. upsampling), a dopasowanie do klasy mniejszościowej – podpróbkowaniem (ang. downsampling).

Utworzysz zarówno nadpróbkowaną, jak i podpróbkowaną wersję zbioru danych loan_data, zastosujesz do nich regresję logistyczną, a następnie ocenisz uzyskane wyniki. Dane treningowe i ich etykiety odpowiadające deny zostały podzielone tak, aby zawierały tylko klasę mniejszościową, a te odpowiadające approve – klasę większościową.

Obiekt podziału na zbiór treningowy i testowy, służący do tworzenia predykcji, został zapisany w środowisku roboczym jako X_test – możesz go używać w ćwiczeniach.

1
- Utwórz nadpróbkowaną klasę mniejszościową o długości równej klasie większościowej i połącz ją (wykonane za ciebie).
- Utwórz podpróbkowaną klasę większościową o długości równej klasie mniejszościowej i połącz ją (wykonane za ciebie).

2
- Utwórz nadpróbkowaną macierz cech i tablicę docelową.
- Utwórz obiekt modelu regresji logistycznej, dopasuj go i wykonaj predykcję na X_test.
- Wyświetl metryki oceny.
3
- Utwórz podpróbkowaną macierz cech i tablicę docelową.
- Utwórz obiekt modelu regresji logistycznej, dopasuj go i wykonaj predykcję na X_test.
- Wyświetl metryki oceny.

ćwiczenie

Techniki ponownego próbkowania

Instrukcje 1/3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/3

ćwiczenie