Huizenprijzen scheiden met UMAP

Je hebt de dimensionaliteit van de Californische huizenverkoopgegevens (house_sales_df) verkleind met PCA en t-SNE. Nu ga je UMAP gebruiken. Het eindresultaat van UMAP lijkt sterk op dat van t-SNE, maar UMAP is doorgaans rekenkundig efficiënter. Het probeert ook meer van de globale structuur te behouden. In de praktijk betekent dit dat je de afstand tussen clusters kunt interpreteren als een maat voor overeenkomst — iets wat niet mogelijk was met t-SNE.

Onthoud dat de doelvariabele van house_sales_df price is. Stel num_comp = 2 in. De pakketten tidyverse en embed zijn alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Bekijk cursus

Oefeninstructies

Pas UMAP toe op alle predictoren in house_sales_df met step_umap() in een recipe en sla de getransformeerde data op in umap_df.
Visualiseer de UMAP-dimensies met ggplot(), waarbij je de doelvariabele price in kleur encodeert.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>% 
  ___(___()) %>% 
  ___(___(), num_comp = 2) %>% 
  prep() %>% 
  ___() 

# Plot UMAP
___ %>%  
  ___(aes(x = ___, y = ___, color = ___)) +
  ___(alpha = 0.7) +
  scale_color_gradient(low="gray", high="blue")

Code bewerken en uitvoeren