1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie nienadzorowane w R

Connected

ćwiczenie

Kwestie praktyczne: skalowanie

Jak pokazano w filmie, klastrowanie rzeczywistych danych może wymagać skalowania cech, jeśli mają one różne rozkłady. Do tej pory w tym rozdziale pracowałeś z syntetycznymi danymi, które nie wymagały skalowania.

W tym ćwiczeniu wrócisz do pracy z „prawdziwymi" danymi – zbiorem pokemon wprowadzonym w pierwszym rozdziale. Zaobserwujesz rozkład (średnią i odchylenie standardowe) każdej cechy, odpowiednio przeskalojesz dane, a następnie zbudujesz model klastrowania hierarchicznego metodą pełnego połączenia.

Instrukcje

100 XP

Dane są zapisane w obiekcie pokemon w twoim środowisku pracy.

  • Sprawdź średnią każdej zmiennej w zbiorze pokemon za pomocą funkcji colMeans().
  • Sprawdź odchylenie standardowe każdej zmiennej, używając funkcji apply() i sd(). Ponieważ zmienne odpowiadają kolumnom macierzy, pamiętaj, aby jako argument MARGIN funkcji apply() podać wartość 2.
  • Przeskaluj dane pokemon za pomocą funkcji scale() i zapisz wynik w zmiennej pokemon.scaled.
  • Zbuduj model klastrowania hierarchicznego na danych pokemon.scaled, używając metody pełnego połączenia. Jawnie podaj argument method i zapisz wynik w zmiennej hclust.pokemon.