1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe w finansach z Pythonem

Connected

ćwiczenie

Ważność cech w lasach losowych

Jedną z przydatnych właściwości metod drzewiastych jest możliwość wyznaczenia ważności cech. To ilościowy sposób oceny, jak bardzo każda cecha wpływa na przewidywania modelu. Dzięki temu możesz skupić się na najistotniejszych cechach – ewentualnie je ulepszać lub dostrajać – a także pozbyć się cech bezużytecznych, które niepotrzebnie zaśmiecają model.

Modele drzewiaste w sklearn udostępniają właściwość .feature_importances_, dostępną po dopasowaniu modelu. Przechowuje ona wyniki ważności cech. Aby stworzyć czytelny wykres słupkowy ważności cech (posortowanych od największej do najmniejszej), należy pobrać indeksy posortowanych wartości za pomocą np.argsort().

Instrukcje

100 XP
  • Użyj właściwości feature_importances_ modelu lasu losowego (rfr), aby wyodrębnić ważności cech i zapisać je w zmiennej importances.
  • Za pomocą funkcji argsort z biblioteki numpy pobierz indeksy ważności cech posortowane od największej do najmniejszej i zapisz je w zmiennej sorted_index.
  • Ustaw etykiety osi X jako nazwy cech w zmiennej labels, korzystając z listy sorted_index. Zmienna feature_names musi zostać przekonwertowana na tablicę numpy, aby można było jej indeksować za pomocą listy sorted_index.