1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie nienadzorowane w R

Connected

ćwiczenie

Wyjaśniona wariancja

W tym ćwiczeniu stworzysz wykresy osypiska (scree plots) pokazujące proporcję wyjaśnionej wariancji wraz ze wzrostem liczby głównych składowych. Dane z PCA należy najpierw odpowiednio przygotować, ponieważ R nie oferuje wbudowanej funkcji, która generowałaby takie wykresy bezpośrednio z modelu PCA.

Analizując te wykresy, zastanów się, czy widoczne jest wyraźne „łokieć" sugerujące naturalną liczbę składowych do zachowania. Jeśli taki punkt przegięcia nie jest oczywisty – co zdarza się często w rzeczywistych zbiorach danych – pomyśl, jak inaczej można by wyznaczyć optymalną liczbę głównych składowych na podstawie wykresu osypiska.

Instrukcje

100 XP

Zmienne utworzone wcześniej – wisc.data, diagnosis i wisc.pr – są nadal dostępne.

  • Oblicz wariancję każdej głównej składowej, podnosząc do kwadratu komponent sdev obiektu wisc.pr. Zapisz wynik jako obiekt o nazwie pr.var.
  • Oblicz proporcję wariancji wyjaśnionej przez każdą główną składową, dzieląc przez łączną wyjaśnioną wariancję wszystkich składowych. Przypisz wynik do zmiennej o nazwie pve.
  • Utwórz wykres wyjaśnionej wariancji dla każdej głównej składowej.
  • Korzystając z funkcji cumsum(), utwórz wykres skumulowanej proporcji wyjaśnionej wariancji.