1. Learn
  2. /
  3. Cursuri
  4. /
  5. Exersează întrebări de interviu pentru Machine Learning în Python

Connected

exercițiu

Tehnici de reesantionare

În exercițiul anterior, ai văzut cum dezechilibrul dintre clase poate influența rezultatele matricei de confuzie. În acest exercițiu, vei exersa tehnici de reeeșantionare pentru a explora efectele pe care diferite stiluri de reeeșantionare le pot avea asupra unui set de date cu dezechilibru de clase, precum loan_data. Folosind funcția resample() din sklearn, potrivirea numărului de rânduri cu clasa majoritară se numește supraeșantionare (upsampling), iar potrivirea cu clasa minoritară se numește subeșantionare (downsampling).

Vei crea atât o versiune supraeșantionată, cât și una subeșantionată a setului de date loan_data, vei aplica o regresie logistică pe fiecare dintre ele și vei evalua performanța. Datele de antrenament și etichetele corespunzătoare clasei deny sunt filtrate pentru a conține doar clasa minoritară, iar cele corespunzătoare clasei approve — clasa majoritară.

Un obiect de tip train/test split pentru generarea predicțiilor a fost salvat în spațiul de lucru ca X_test, disponibil pentru utilizare în exerciții.

Instrucțiuni 1/3

undefined XP
  • 1
    • Creează o clasă minoritară supraeșantionată la lungimea clasei majoritare și concatenează (realizat pentru tine).
    • Creează o clasă majoritară subeșantionată la lungimea clasei minoritare și concatenează (realizat pentru tine).
  • 2
    • Creează matricea de caracteristici și vectorul de etichete pentru varianta supraeșantionată.
    • Instanțiază un obiect de tip regresie logistică, antrenează-l și generează predicții cu X_test.
    • Afișează metricile de evaluare.
  • 3
    • Creează matricea de caracteristici și vectorul de etichete pentru varianta subeșantionată.
    • Instanțiază un obiect de tip regresie logistică, antrenează-l și generează predicții cu X_test.
    • Afișează metricile de evaluare.