Separando precios de viviendas con UMAP
Has reducido la dimensionalidad del conjunto de datos de ventas de viviendas de California (house_sales_df) usando PCA y t-SNE. Ahora vas a usar UMAP. El resultado final de UMAP es muy similar al de t-SNE; sin embargo, UMAP suele ser más eficiente computacionalmente. Además, busca conservar más la estructura global. En la práctica, esto significa que puedes interpretar la distancia entre clústeres como una medida de similitud —algo que no podías hacer con t-SNE.
Recuerda que la variable objetivo de house_sales_df es price. Establece num_comp = 2. Los paquetes tidyverse y embed ya están cargados.
Este ejercicio forma parte del curso
Reducción de la dimensionalidad en R
Instrucciones del ejercicio
- Ajusta UMAP a todos los predictores de
house_sales_dfusandostep_umap()en una receta y guarda los datos transformados enumap_df. - Representa las dimensiones de UMAP con
ggplot(), codificando en color la variable objetivoprice.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>%
___(___()) %>%
___(___(), num_comp = 2) %>%
prep() %>%
___()
# Plot UMAP
___ %>%
___(aes(x = ___, y = ___, color = ___)) +
___(alpha = 0.7) +
scale_color_gradient(low="gray", high="blue")