1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cluster Analysis v R

Connected

Cvičení

Vliv škálování

Už víš, že pokud je jedna proměnná na výrazně větší škále než ostatní proměnné v datech, může nepřiměřeně ovlivnit výsledné vzdálenosti vypočítané mezi pozorováními. Pojďme si to ukázat na vzorku dat z datové sady trees.

Použijeme funkci scale(), která ve výchozím nastavení centruje a škáluje příznaky sloupců.

Naše proměnné jsou:

  • Girth – průměr stromu v palcích
  • Height – výška stromu v palcích

Pokyny

100 XP
  • Vypočítej matici vzdáleností pro datový rámec three_trees a ulož ji jako dist_trees.
  • Vytvoř novou proměnnou scaled_three_trees, ve které budou data three_trees centrovaná a škálovaná.
  • Vypočítej a vypiš matici vzdáleností pro scaled_three_trees a ulož ji jako dist_scaled_trees.
  • Zobraz obě matice – dist_trees i dist_scaled_trees – a sleduj, jak se změnilo, která pozorování mají mezi sebou nejmenší vzdálenost (nápověda: změnilo se to).