1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Preprocessing pro Machine Learning v Pythonu

Connected

cvičení

Modelování bez normalizace

Podívejme se, co se může stát s přesností modelu, když se pokusíš modelovat data bez předchozí standardizace.

Pracujeme s podmnožinou datasetu wine. Jeden ze sloupců, Proline, má ve srovnání s ostatními sloupci extrémně vysoký rozptyl. To je typický případ, kdy se hodí technika jako logaritmická normalizace – o té se dozvíš v příští části.

Postup trénování modelu v scikit-learn by ti už měl být dobře známý, takže ho nebudeme rozebírat do hloubky. K dispozici máš model k-nejbližších sousedů (knn) a také sady X a y, které potřebuješ k trénování a vyhodnocení.

Pokyny

100 XP
  • Rozděl sady X a y na trénovací a testovací část tak, aby byly třídní štítky v obou sadách rovnoměrně zastoupeny.
  • Natrénuj model knn na trénovacích příznacích a štítcích.
  • Vypiš přesnost modelu knn na testovací sadě pomocí metody .score().