Powrót do danych hurtowni: „najlepsze" k

Pod koniec rozdziału 2 analizowałeś dane hurtowni customers_spend za pomocą grupowania hierarchicznego. Teraz przeanalizujesz te dane, korzystając z narzędzi grupowania k-średnich omówionych w tym rozdziale.

Pierwszym krokiem będzie wyznaczenie „najlepszej" wartości k przy użyciu średniej szerokości sylwetki.

Krótkie przypomnienie dotyczące danych: zawierają one informacje o wydatkach 45 różnych klientów hurtowni w kategoriach żywności: Mleko, Artykuły spożywcze i Mrożonki. Dane są przechowywane w ramce danych customers_spend. W tym ćwiczeniu możesz założyć, że ponieważ wszystkie dane są tego samego typu (kwoty wydatków), nie trzeba ich skalować.

Użyj funkcji map_dbl(), aby uruchomić pam() na danych customers_spend dla wartości k od 2 do 10 i wyodrębnić wartość średniej szerokości sylwetki z każdego modelu: model$silinfo$avg.width. Zapisz wynikowy wektor jako sil_width.
Zbuduj nową ramkę danych sil_df zawierającą wartości k oraz wektor średnich szerokości sylwetki.
Korzystając z wartości zawartych w sil_df, narysuj wykres liniowy przedstawiający zależność między k a średnią szerokością sylwetki.

ćwiczenie

Powrót do danych hurtowni: „najlepsze" k

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie