Separando precios de viviendas con UMAP

Has reducido la dimensionalidad del conjunto de datos de ventas de viviendas de California (house_sales_df) usando PCA y t-SNE. Ahora vas a usar UMAP. El resultado final de UMAP es muy similar al de t-SNE; sin embargo, UMAP suele ser más eficiente computacionalmente. Además, busca conservar más la estructura global. En la práctica, esto significa que puedes interpretar la distancia entre clústeres como una medida de similitud —algo que no podías hacer con t-SNE.

Recuerda que la variable objetivo de house_sales_df es price. Establece num_comp = 2. Los paquetes tidyverse y embed ya están cargados.

Este ejercicio forma parte del curso

Reducción de la dimensionalidad en R

Ver curso

Instrucciones del ejercicio

Ajusta UMAP a todos los predictores de house_sales_df usando step_umap() en una receta y guarda los datos transformados en umap_df.
Representa las dimensiones de UMAP con ggplot(), codificando en color la variable objetivo price.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>% 
  ___(___()) %>% 
  ___(___(), num_comp = 2) %>% 
  prep() %>% 
  ___() 

# Plot UMAP
___ %>%  
  ___(aes(x = ___, y = ___, color = ___)) +
  ___(alpha = 0.7) +
  scale_color_gradient(low="gray", high="blue")

Editar y ejecutar código