1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Detekce anomálií v Pythonu

Connected

cvičení

Procvičování standardizace

Používat KNN na neznámých distribucích naslepo je riskantní. Jeho výkon výrazně klesá, když příznaky nemají stejné měřítko. Neškálované příznaky zkreslují výpočty vzdáleností, a tím vracejí nerealistické skóre anomálií.

Běžnou technikou, jak tomuto problému předejít, je standardizace – tedy odečtení průměru od příznaku a vydělení jeho směrodatnou odchylkou. Výsledkem je příznak s průměrem 0 a rozptylem 1.

Procvič si standardizaci na datasetu females, který je již načtený.

Pokyny

100 XP
  • Vytvoř instanci StandardScaler() a ulož ji jako ss.
  • Extrahuj pole příznaků a cílové proměnné do X a y. Cílová proměnná je sloupec weightkg.
  • Přizpůsob StandardScaler() na X a zároveň ho transformuj.
  • Zopakuj výše uvedený postup, ale zachovej přitom názvy sloupců DataFrame X.