Huizenprijzen scheiden met UMAP
Je hebt de dimensionaliteit van de Californische huizenverkoopgegevens (house_sales_df) verkleind met PCA en t-SNE. Nu ga je UMAP gebruiken. Het eindresultaat van UMAP lijkt sterk op dat van t-SNE, maar UMAP is doorgaans rekenkundig efficiënter. Het probeert ook meer van de globale structuur te behouden. In de praktijk betekent dit dat je de afstand tussen clusters kunt interpreteren als een maat voor overeenkomst — iets wat niet mogelijk was met t-SNE.
Onthoud dat de doelvariabele van house_sales_df price is. Stel num_comp = 2 in. De pakketten tidyverse en embed zijn alvast voor je geladen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in R
Oefeninstructies
- Pas UMAP toe op alle predictoren in
house_sales_dfmetstep_umap()in een recipe en sla de getransformeerde data op inumap_df. - Visualiseer de UMAP-dimensies met
ggplot(), waarbij je de doelvariabelepricein kleur encodeert.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>%
___(___()) %>%
___(___(), num_comp = 2) %>%
prep() %>%
___()
# Plot UMAP
___ %>%
___(aes(x = ___, y = ___, color = ___)) +
___(alpha = 0.7) +
scale_color_gradient(low="gray", high="blue")