1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Intermediate Predictive Analytics in Python

Connected

cvičení

Ošetření odlehlých hodnot pomocí winsorizace

K dispozici máš basetable se dvěma proměnnými: "sum\_donations" a "donor\_id". Proměnná "sum_donations" může obsahovat odlehlé hodnoty v případech, kdy dárci přispěli výjimečně vysokými částkami. Proto chceš tuto proměnnou winsorizovat tak, aby bylo 5 % nejvyšších hodnot nahrazeno hodnotou horního 5% percentilu.

Pokyny

100 XP
  • Vypiš minimální hodnotu sum_donations a ověř, že je alespoň 0. Poté vypiš maximální hodnotu sum_donations.
  • Doplň vhodný dolní percentilový limit. Protože všechny hodnoty vyšší než 0 jsou realistické a vyskytují se běžně, není nutné nahrazovat hodnoty pod dolním percentilovým limitem.
  • Vytvoř novou proměnnou „sum_donations_winsorized", která bude winsorizovanou verzí proměnné „sum_donations".
  • Vypiš maximální hodnotu sum_donations_winsorized.