1. Nauka
  2. /
  3. Kursy
  4. /
  5. Analiza skupień w R

Connected

ćwiczenie

Powrót do danych hurtowni: „najlepsze" k

Pod koniec rozdziału 2 analizowałeś dane hurtowni customers_spend za pomocą grupowania hierarchicznego. Teraz przeanalizujesz te dane, korzystając z narzędzi grupowania k-średnich omówionych w tym rozdziale.

Pierwszym krokiem będzie wyznaczenie „najlepszej" wartości k przy użyciu średniej szerokości sylwetki.

Krótkie przypomnienie dotyczące danych: zawierają one informacje o wydatkach 45 różnych klientów hurtowni w kategoriach żywności: Mleko, Artykuły spożywcze i Mrożonki. Dane są przechowywane w ramce danych customers_spend. W tym ćwiczeniu możesz założyć, że ponieważ wszystkie dane są tego samego typu (kwoty wydatków), nie trzeba ich skalować.

Instrukcje

100 XP
  • Użyj funkcji map_dbl(), aby uruchomić pam() na danych customers_spend dla wartości k od 2 do 10 i wyodrębnić wartość średniej szerokości sylwetki z każdego modelu: model$silinfo$avg.width. Zapisz wynikowy wektor jako sil_width.
  • Zbuduj nową ramkę danych sil_df zawierającą wartości k oraz wektor średnich szerokości sylwetki.
  • Korzystając z wartości zawartych w sil_df, narysuj wykres liniowy przedstawiający zależność między k a średnią szerokością sylwetki.