1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Procvičování otázek k pohovorům z oblasti Machine Learning v Pythonu

Connected

Exercise

Metody filter a wrapper

Otázky týkající se snižování dimenzionality datasetu patří na pohovorech z oblasti strojového učení k těm nejčastějším. Jedním ze způsobů, jak dimenzi datasetu snížit, je ponechat pouze relevantní příznaky.

Tady si procvičíš metodu filter na DataFrame diabetes a následně 2 různé styly metod wrapper zahrnující křížovou validaci. Pro vizualizaci korelací, zpracování dat a aplikaci technik výběru příznaků použiješ pandas, matplotlib.pyplot a seaborn.

Matice příznaků s odstraněným sloupcem cílové proměnné (progression) je načtena jako X, samotná cílová proměnná pak jako y.

Poznámka: pandas, matplotlib.pyplot a seaborn jsou již v pracovním prostředí importovány a dostupné pod aliasy pd, plt a sns.

Všimni si, že do pipeline přibyl krok Cross-validate (který se vztahuje na poslední 3 kroky):

Machine learning pipeline

Instrukcje 1/3

undefined XP
  • 1
    • Vytvoř korelační matici z diabetes a zobraz ji jako heatmapu, poté vyber příznaky s korelací vyšší než 50 %.
  • 2
    • Vytvoř odhadce SVR s lineárním jádrem a selektor příznaků s 5 křížovými validacemi a natrénuj je na příznacích a cílové proměnné.
  • 3
    • Odstraň z X nedůležitý sloupec nalezený v kroku 2, vytvoř objekt LarsCV a natrénuj ho na svých datech.