1. Learn
  2. /
  3. Cursuri
  4. /
  5. Reducerea dimensionalității în Python

Connected

exercițiu

Eliminarea caracteristicilor puternic corelate

Vei automatiza eliminarea caracteristicilor puternic corelate din setul de date numeric ANSUR. Vei calcula matricea de corelație și vei filtra coloanele care au un coeficient de corelație mai mare de 0,95 sau mai mic de -0,95.

Deoarece fiecare coeficient de corelație apare de două ori în matrice (corelația dintre A și B este egală cu corelația dintre B și A), vei ignora jumătate din matricea de corelație, astfel încât doar una dintre cele două caracteristici corelate să fie eliminată. Folosește un truc cu o mască în acest scop.

Instrucțiuni

100 XP
  • Calculează matricea de corelație a ansur_df și aplică valoarea absolută acestei matrice.
  • Creează o mască booleană cu valori True în triunghiul din dreapta sus și aplic-o matricei de corelație.
  • Setează pragul coeficientului de corelație la 0.95.
  • Elimină toate coloanele din lista to_drop din DataFrame.