1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Modelování kreditního rizika v R

Connected

cvičení

Odlehlé hodnoty

Teď se blíže podíváme na strukturu proměnné age. Vpravo vidíš histogram. Podobně jako u ročního příjmu (annual_inc) ve videu si můžeš všimnout, že na pravé straně grafu je hodně prázdného místa – to může naznačovat přítomnost odlehlých hodnot. Pomocí bodového grafu si to ověříš. Pokud odlehlé hodnoty najdeš, odstraníš je.

Pokud se odlehlé hodnoty vyskytují u více proměnných, může být užitečné prohlédnout si dvourozměrné grafy. Je možné, že odlehlé hodnoty patří ke stejnému záznamu. Pokud ano, je to dalším důvodem k jeho odstranění – pravděpodobně obsahuje chybné informace.

Pokyny

100 XP
  • Pomocí funkce plot() vytvoř bodový graf proměnné age (přes loan_data$age). Jako druhý argument zadej ylab a nastav popisek osy y na "Age".
  • Nejstarší osoba v tomto datovém souboru je starší než 122 let! Pomocí funkce which() a podmínky loan_data$age > 122 zjisti index tohoto odlehlého záznamu a přiřaď ho do objektu index_highage.
  • Vytvoř nový datový soubor new_data tak, že z původního odstraníš záznam s vysokým věkem pomocí objektu index_highage.
  • Prohlédni si dvourozměrný bodový graf, kde osa x představuje věk a osa y roční příjem. Popisky os nastav na "Age" a "Annual Income".