1. Learn
  2. /
  3. Cursuri
  4. /
  5. Introducere în analitica predictivă în Python

Connected

exercițiu

Partiționare

Pentru a evalua corect un model, poți împărți datele într-un set de antrenament și un set de testare. Setul de antrenament conține datele pe baza cărora se construiește modelul, iar setul de testare este folosit pentru a-l evalua. Această împărțire se face aleatoriu, însă atunci când incidența variabilei țintă este redusă, poate fi necesar să aplici stratificarea – adică să te asiguri că setul de antrenament și cel de testare conțin un procent egal de ținte.

În acest exercițiu vei partiția datele cu stratificare și vei verifica că cele două seturi au aceeași incidență a variabilei țintă. Metoda train_test_split a fost deja importată, iar DataFrame-urile X și y sunt disponibile în spațiul tău de lucru.

Instrucțiuni

100 XP
  • Stratifică aceste DataFrame-uri folosind metoda train_test_split. Asigură-te că setul de antrenament și cel de testare au aceeași dimensiune și aceeași incidență a variabilei țintă.
  • Calculează incidența variabilei țintă pentru setul de antrenament. Aceasta reprezintă numărul de ținte din setul de antrenament împărțit la numărul total de observații din setul de antrenament.
  • Calculează incidența variabilei țintă pentru setul de testare.