Separare i prezzi delle case con UMAP

Hai ridotto la dimensionalità dei dati sulle vendite di case in California (house_sales_df) usando PCA e t-SNE. Ora userai UMAP. Il risultato finale di UMAP è molto simile a quello di t-SNE, tuttavia UMAP tende a essere più efficiente dal punto di vista computazionale. Inoltre cerca di preservare maggiormente la struttura globale. In pratica, questo significa che puoi interpretare la distanza tra cluster come una misura di similarità — cosa che non potevi fare con t-SNE.

Ricorda, la variabile target di house_sales_df è price. Imposta num_comp = 2. I pacchetti tidyverse ed embed sono già stati caricati per te.

Questo esercizio fa parte del corso

Riduzione della dimensionalità in R

Visualizza corso

Istruzioni dell'esercizio

Adatta UMAP a tutti i predittori in house_sales_df usando step_umap() in una ricetta e memorizza i dati trasformati in umap_df.
Rappresenta le dimensioni UMAP con ggplot(), codificando la variabile target price nel colore.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>% 
  ___(___()) %>% 
  ___(___(), num_comp = 2) %>% 
  prep() %>% 
  ___() 

# Plot UMAP
___ %>%  
  ___(aes(x = ___, y = ___, color = ___)) +
  ___(alpha = 0.7) +
  scale_color_gradient(low="gray", high="blue")

Modifica ed esegui il codice