1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cluster Analysis v R

Connected

Cvičení

Mnoho hodnot k, mnoho modelů

Zatímco u datasetu lineup je hodnota k jasně daná, v praxi optimální počet clusterů zpravidla předem neznáme a musíme ho odhadnout.

V tomto cvičení využiješ funkci map_dbl() z knihovny purrr ke spuštění k-means pro hodnoty k od 1 do 10 a z každého modelu extrahuješ metriku celkového součtu čtverců uvnitř clusterů. Toto bude první krok k vizualizaci tzv. elbow plotu.

Pokyny

100 XP
  • Pomocí map_dbl() spusť kmeans() na datech lineup pro hodnoty k od 1 do 10 a z každého modelu extrahuj hodnotu celkového součtu čtverců uvnitř clusterů: model$tot.withinss. Výsledný vektor ulož jako tot_withinss.
  • Vytvoř nový datový rámec elbow_df obsahující hodnoty k a vektor celkových součtů čtverců uvnitř clusterů.