Separando preços de casas com UMAP

Você já reduziu a dimensionalidade dos dados de vendas de casas da Califórnia (house_sales_df) usando PCA e t-SNE. Agora, você vai usar UMAP. O resultado final do UMAP é muito parecido com o do t-SNE; no entanto, o UMAP tende a ser mais eficiente computacionalmente. Ele também busca reter mais da estrutura global. Na prática, isso significa que você pode interpretar a distância entre os agrupamentos como uma medida de similaridade — algo que não era possível com t-SNE.

Lembre-se: a variável alvo de house_sales_df é price. Defina num_comp = 2. Os pacotes tidyverse e embed já foram carregados para você.

Este exercício faz parte do curso

Redução de Dimensionalidade em R

Ver curso

Instruções do exercício

Ajuste o UMAP a todos os preditores em house_sales_df usando step_umap() em uma receita e armazene os dados transformados em umap_df.
Plote as dimensões do UMAP usando ggplot(), codificando a variável alvo price na cor.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>% 
  ___(___()) %>% 
  ___(___(), num_comp = 2) %>% 
  prep() %>% 
  ___() 

# Plot UMAP
___ %>%  
  ___(aes(x = ___, y = ___, color = ___)) +
  ___(alpha = 0.7) +
  scale_color_gradient(low="gray", high="blue")

Editar e executar o código