1. Nauka
  2. /
  3. Kursy
  4. /
  5. Redukcja wymiarowości w R

Connected

ćwiczenie

Rozdzielanie cen domów za pomocą UMAP

Zbiór danych o sprzedaży domów w Kalifornii (house_sales_df) poddałeś już redukcji wymiarowości przy użyciu PCA i t-SNE. Teraz zastosuj UMAP. Wyniki obu metod są podobne, jednak UMAP jest zazwyczaj wydajniejszy obliczeniowo. Lepiej też zachowuje globalną strukturę danych. W praktyce oznacza to, że odległość między klastrami można interpretować jako miarę podobieństwa — czego nie można było robić w przypadku t-SNE.

Pamiętaj, że zmienną docelową w house_sales_df jest price. Ustaw num_comp = 2. Pakiety tidyverse i embed są już załadowane.

Instrukcje

100 XP
  • Dopasuj UMAP do wszystkich predyktorów w house_sales_df, używając step_umap() w przepisie, i zapisz przekształcone dane w umap_df.
  • Zwizualizuj wymiary UMAP za pomocą ggplot(), kodując zmienną docelową price kolorem.