Kwestie praktyczne: skalowanie

Jak pokazano w filmie, klastrowanie rzeczywistych danych może wymagać skalowania cech, jeśli mają one różne rozkłady. Do tej pory w tym rozdziale pracowałeś z syntetycznymi danymi, które nie wymagały skalowania.

W tym ćwiczeniu wrócisz do pracy z „prawdziwymi" danymi – zbiorem pokemon wprowadzonym w pierwszym rozdziale. Zaobserwujesz rozkład (średnią i odchylenie standardowe) każdej cechy, odpowiednio przeskalojesz dane, a następnie zbudujesz model klastrowania hierarchicznego metodą pełnego połączenia.

Dane są zapisane w obiekcie pokemon w twoim środowisku pracy.

Sprawdź średnią każdej zmiennej w zbiorze pokemon za pomocą funkcji colMeans().
Sprawdź odchylenie standardowe każdej zmiennej, używając funkcji apply() i sd(). Ponieważ zmienne odpowiadają kolumnom macierzy, pamiętaj, aby jako argument MARGIN funkcji apply() podać wartość 2.
Przeskaluj dane pokemon za pomocą funkcji scale() i zapisz wynik w zmiennej pokemon.scaled.
Zbuduj model klastrowania hierarchicznego na danych pokemon.scaled, używając metody pełnego połączenia. Jawnie podaj argument method i zapisz wynik w zmiennej hclust.pokemon.

ćwiczenie

Kwestie praktyczne: skalowanie

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie