1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Interpretace výsledků

Téměř vždy je důležité vědět, které příznaky mají na tvůj předpověď největší vliv. Možná je výsledek překvapivý — a to samo o sobě může být cenný poznatek. Nebo možná jen několik příznaků zajišťuje většinu přesnosti modelu a není třeba trávit čas získáváním nebo úpravou těch ostatních.

V tomto příkladu se podíváme na model natrénovaný bez jakýchkoli informací z LISTPRICE. Co tedy nejvíce ovlivňuje cenu?

  • POZNÁMKA: Pole důležitostí příznaků importances už bylo vytvořeno z model.featureImportances.toArray().

Pokyny

100 XP
  • Vytvoř pandas dataframe s hodnotami z importances a pojmenuj sloupec importance nastavením parametru columns.
  • Pomocí importovaného seznamu názvů příznaků feature_cols vytvoř novou pandas.Series zabalením do funkce pd.Series(). Přiřaď ji ke sloupci fi_df['feature'].
  • Seřaď dataframe pomocí sort_values(), nastav parametr by na náš sloupec importance a řaď sestupně nastavením ascending na False. Prohlédni si výsledky.