Separare i prezzi delle case con UMAP
Hai ridotto la dimensionalità dei dati sulle vendite di case in California (house_sales_df) usando PCA e t-SNE. Ora userai UMAP. Il risultato finale di UMAP è molto simile a quello di t-SNE, tuttavia UMAP tende a essere più efficiente dal punto di vista computazionale. Inoltre cerca di preservare maggiormente la struttura globale. In pratica, questo significa che puoi interpretare la distanza tra cluster come una misura di similarità — cosa che non potevi fare con t-SNE.
Ricorda, la variabile target di house_sales_df è price. Imposta num_comp = 2. I pacchetti tidyverse ed embed sono già stati caricati per te.
Questo esercizio fa parte del corso
Riduzione della dimensionalità in R
Istruzioni dell'esercizio
- Adatta UMAP a tutti i predittori in
house_sales_dfusandostep_umap()in una ricetta e memorizza i dati trasformati inumap_df. - Rappresenta le dimensioni UMAP con
ggplot(), codificando la variabile targetpricenel colore.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>%
___(___()) %>%
___(___(), num_comp = 2) %>%
prep() %>%
___()
# Plot UMAP
___ %>%
___(aes(x = ___, y = ___, color = ___)) +
___(alpha = 0.7) +
scale_color_gradient(low="gray", high="blue")