Modelování bez normalizace

Podívejme se, co se může stát s přesností modelu, když se pokusíš modelovat data bez předchozí standardizace.

Pracujeme s podmnožinou datasetu wine. Jeden ze sloupců, Proline, má ve srovnání s ostatními sloupci extrémně vysoký rozptyl. To je typický případ, kdy se hodí technika jako logaritmická normalizace – o té se dozvíš v příští části.

Postup trénování modelu v scikit-learn by ti už měl být dobře známý, takže ho nebudeme rozebírat do hloubky. K dispozici máš model k-nejbližších sousedů (knn) a také sady X a y, které potřebuješ k trénování a vyhodnocení.

Rozděl sady X a y na trénovací a testovací část tak, aby byly třídní štítky v obou sadách rovnoměrně zastoupeny.
Natrénuj model knn na trénovacích příznacích a štítcích.
Vypiš přesnost modelu knn na testovací sadě pomocí metody .score().

cvičení

Modelování bez normalizace

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení