1. Nauka
  2. /
  3. Kursy
  4. /
  5. Ćwiczenie pytań rekrutacyjnych z uczenia maszynowego w Pythonie

Connected

ćwiczenie

Techniki ponownego próbkowania

W poprzednim ćwiczeniu zobaczyłeś, jak niezbalansowanie klas może wpływać na wyniki macierzy pomyłek. W tym ćwiczeniu przećwiczysz techniki ponownego próbkowania, aby zbadać, jak różne podejścia do próbkowania mogą wpłynąć na zbiór danych z niezbalansowanymi klasami, taki jak loan_data. Używając funkcji resample() z biblioteki sklearn: dopasowanie liczby wierszy do klasy większościowej nazywamy nadpróbkowaniem (ang. upsampling), a dopasowanie do klasy mniejszościowej – podpróbkowaniem (ang. downsampling).

Utworzysz zarówno nadpróbkowaną, jak i podpróbkowaną wersję zbioru danych loan_data, zastosujesz do nich regresję logistyczną, a następnie ocenisz uzyskane wyniki. Dane treningowe i ich etykiety odpowiadające deny zostały podzielone tak, aby zawierały tylko klasę mniejszościową, a te odpowiadające approve – klasę większościową.

Obiekt podziału na zbiór treningowy i testowy, służący do tworzenia predykcji, został zapisany w środowisku roboczym jako X_test – możesz go używać w ćwiczeniach.

Instrukcje 1/3

undefined XP
  • 1
    • Utwórz nadpróbkowaną klasę mniejszościową o długości równej klasie większościowej i połącz ją (wykonane za ciebie).
    • Utwórz podpróbkowaną klasę większościową o długości równej klasie mniejszościowej i połącz ją (wykonane za ciebie).
  • 2
    • Utwórz nadpróbkowaną macierz cech i tablicę docelową.
    • Utwórz obiekt modelu regresji logistycznej, dopasuj go i wykonaj predykcję na X_test.
    • Wyświetl metryki oceny.
  • 3
    • Utwórz podpróbkowaną macierz cech i tablicę docelową.
    • Utwórz obiekt modelu regresji logistycznej, dopasuj go i wykonaj predykcję na X_test.
    • Wyświetl metryki oceny.