1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Interpretowanie wyników

Niemal zawsze warto wiedzieć, które cechy mają największy wpływ na predykcję modelu. Może okaże się to zaskakujące – a to samo w sobie jest cenną obserwacją. Może też kilka cech odpowiada za większość dokładności modelu i nie trzeba poświęcać czasu na pozyskiwanie ani przetwarzanie pozostałych.

W tym ćwiczeniu przyjrzymy się modelowi, który był trenowany bez żadnych danych LISTPRICE. Skoro tej informacji brakuje – co najbardziej wpływa na cenę?

  • UWAGA: Tablica ważności cech importances została już dla ciebie utworzona na podstawie model.featureImportances.toArray()

Instrukcje

100 XP
  • Utwórz ramkę danych pandas, używając wartości z importances, i nadaj kolumnie nazwę importance, ustawiając parametr columns.
  • Korzystając z zaimportowanej listy nazw cech feature_cols, utwórz nową serię pandas.Series, opakowując ją w funkcję pd.Series(). Przypisz ją do kolumny fi_df['feature'].
  • Posortuj ramkę danych za pomocą sort_values(), ustawiając parametr by na kolumnę importance i sortując malejąco przez ustawienie ascending na False. Przejrzyj wyniki.