1. Learn
  2. /
  3. คอร์ส
  4. /
  5. Uczenie nienadzorowane w R

Connected

แบบฝึกหัด

Grupowanie na podstawie wyników PCA

W tym ostatnim ćwiczeniu połączysz kilka kroków z poprzednich etapów i przekonasz się, jak wiele kreatywności wymaga uczenie nienadzorowane.

Przypomnij sobie z wcześniejszych ćwiczeń, że model PCA potrzebował znacznie mniejszej liczby cech, aby opisać 80% i 95% zmienności danych. Oprócz normalizacji danych i potencjalnego ograniczania przeuczenia, PCA usuwa też korelacje między zmiennymi, co czasem poprawia działanie innych technik modelowania.

Sprawdźmy, czy PCA poprawia, czy pogarsza wyniki grupowania hierarchicznego.

คำแนะนำ

100 XP

W przestrzeni roboczej nadal dostępne są: wisc.pr, diagnosis, wisc.hclust.clusters oraz wisc.km.

  • Korzystając z minimalnej liczby składowych głównych potrzebnej do opisania co najmniej 90% zmienności danych, utwórz hierarchiczny model grupowania z pełnym wiązaniem. Przypisz wyniki do wisc.pr.hclust.
  • Podziel ten hierarchiczny model grupowania na 4 klastry i przypisz wyniki do wisc.pr.hclust.clusters.
  • Używając funkcji table(), porównaj wyniki nowego hierarchicznego modelu grupowania z rzeczywistymi diagnozami. Jak dobrze nowo utworzony model z czterema klastrami rozdziela oba typy diagnoz?
  • Oceń, jak dobrze modele k-średnich i grupowania hierarchicznego utworzone w poprzednich ćwiczeniach radzą sobie z rozdzielaniem diagnoz. Ponownie użyj funkcji table(), aby porównać wyniki każdego modelu z wektorem zawierającym rzeczywiste diagnozy.