1. 学ぶ
  2. /
  3. コース
  4. /
  5. Procvičování otázek k pohovorům z oblasti Machine Learning v Pythonu

Connected

演習

Zpracování odlehlých hodnot

V předchozím cvičení sis ukázal/a, jak může vizualizace odlehlých hodnot přijít vhod při pohovoru na pozici v oblasti Machine Learning. Dalším praktickým způsobem, jak s odlehlými hodnotami pracovat, je výpočet Z-skóre, které definuje práh pro odlehlé hodnoty přibližně +/−3 standardní odchylky od průměru.

V tomto cvičení použiješ modul scipy.stats k výpočtu Z-skóre pomocí funkce stats.zscore() a funkci mstats.winsorize() k nahrazení odlehlých hodnot technikou zvanou Winsorizing.

Z videoukázky si pamatuj, že hodnoty nad nebo pod 1,5násobkem IQR jsou považovány za možné odlehlé hodnoty. Pro poslední krok tohoto cvičení je tato hodnota 2120.

Potřebné balíčky už jsou naimportované a numerické a kategorické sloupce datasetu loan_data jsou uloženy jako numeric_cols a categoric_cols.

Machine learning pipeline

指示1 / 3

undefined XP
  • 1
    • Vytvoř index řádků, které si chceš ponechat — těch, jejichž absolutní Z-skóre je nižší než 3 pro numerické sloupce — a použij ho k výběru a zřetězení podmnožin.
  • 2
    • Aplikuj Winsorizing na sloupec 'Monthly Debt' s 5% dolní a horní mezí a vytiskni průměr, medián a maximum před transformací i po ní.
  • 3
    • Najdi medián hodnot sloupce Monthly Debt, které jsou nižší než 2120, a nahraď jím odlehlé hodnoty.