Importanța caracteristicilor în random forest

Un aspect util al metodelor bazate pe arbori este posibilitatea de a extrage importanța caracteristicilor. Aceasta reprezintă o modalitate cantitativă de a măsura cât de mult contribuie fiecare caracteristică la predicțiile noastre. Ne ajută să ne concentrăm pe cele mai relevante caracteristici – poate pentru a le îmbunătăți sau ajusta – și ne permite, totodată, să eliminăm caracteristicile inutile care ar putea îngreuna modelul.

Modelele de tip arbore din sklearn au o proprietate .feature_importances_ accesibilă după antrenarea modelului. Aceasta stochează scorurile de importanță ale caracteristicilor. Pentru a genera un grafic de tip bară bine structurat (sortat de la cea mai importantă la cea mai puțin importantă caracteristică), trebuie să obținem indicii corespunzători importanțelor sortate folosind np.argsort().

Folosește proprietatea feature_importances_ a modelului nostru random forest (rfr) pentru a extrage importanțele caracteristicilor în variabila importances.
Folosește argsort din numpy pentru a obține indicii importanțelor caracteristicilor sortate de la cea mai mare la cea mai mică, și salvează indicii sortați în variabila sorted_index.
Setează etichetele de pe axa x ca nume ale caracteristicilor în variabila labels, folosind lista sorted_index. feature_names trebuie convertit într-un array numpy pentru a putea fi indexat cu lista sorted_index.

exercițiu

Importanța caracteristicilor în random forest

Instrucțiuni

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu