1. Learn
  2. /
  3. Courses
  4. /
  5. Cluster Analysis v R

Connected

Exercise

Zpět k datům velkoobchodu: „nejlepší" k

Na konci kapitoly 2 jsi prozkoumával/a data velkoobchodního distributora customers_spend pomocí hierarchického shlukování. Tentokrát tato data analyzuješ nástrojem k-means, který jsi se naučil/a v této kapitole.

Prvním krokem bude určit „nejlepší" hodnotu k pomocí průměrné šířky silhouette.

Krátké připomenutí: data obsahují záznamy o útratě 45 různých klientů velkoobchodního distributora v kategoriích Mléko, Potraviny a Mražené zboží. Jsou uložena v datovém rámci customers_spend. V tomto cvičení můžeš předpokládat, že data jsou všechna stejného typu (utracená částka), takže je není třeba škálovat.

Instructions

100 XP
  • Pomocí map_dbl() spusť pam() na datech customers_spend pro hodnoty k od 2 do 10 a z každého modelu vyextrahuj hodnotu průměrné šířky silhouette: model$silinfo$avg.width. Výsledný vektor ulož jako sil_width.
  • Vytvoř nový datový rámec sil_df obsahující hodnoty k a vektor průměrných šířek silhouette.
  • Pomocí hodnot z sil_df vykresli spojnicový graf zobrazující vztah mezi k a průměrnou šířkou silhouette.