Aan de slagGa gratis aan de slag

Huizenprijzen scheiden met UMAP

Je hebt de dimensionaliteit van de Californische huizenverkoopgegevens (house_sales_df) verkleind met PCA en t-SNE. Nu ga je UMAP gebruiken. Het eindresultaat van UMAP lijkt sterk op dat van t-SNE, maar UMAP is doorgaans rekenkundig efficiënter. Het probeert ook meer van de globale structuur te behouden. In de praktijk betekent dit dat je de afstand tussen clusters kunt interpreteren als een maat voor overeenkomst — iets wat niet mogelijk was met t-SNE.

Onthoud dat de doelvariabele van house_sales_df price is. Stel num_comp = 2 in. De pakketten tidyverse en embed zijn alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Cursus bekijken

Oefeninstructies

  • Pas UMAP toe op alle predictoren in house_sales_df met step_umap() in een recipe en sla de getransformeerde data op in umap_df.
  • Visualiseer de UMAP-dimensies met ggplot(), waarbij je de doelvariabele price in kleur encodeert.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>% 
  ___(___()) %>% 
  ___(___(), num_comp = 2) %>% 
  prep() %>% 
  ___() 

# Plot UMAP
___ %>%  
  ___(aes(x = ___, y = ___, color = ___)) +
  ___(alpha = 0.7) +
  scale_color_gradient(low="gray", high="blue")
Code bewerken en uitvoeren