Separando preços de casas com UMAP
Você já reduziu a dimensionalidade dos dados de vendas de casas da Califórnia (house_sales_df) usando PCA e t-SNE. Agora, você vai usar UMAP. O resultado final do UMAP é muito parecido com o do t-SNE; no entanto, o UMAP tende a ser mais eficiente computacionalmente. Ele também busca reter mais da estrutura global. Na prática, isso significa que você pode interpretar a distância entre os agrupamentos como uma medida de similaridade — algo que não era possível com t-SNE.
Lembre-se: a variável alvo de house_sales_df é price. Defina num_comp = 2. Os pacotes tidyverse e embed já foram carregados para você.
Este exercício faz parte do curso
Redução de Dimensionalidade em R
Instruções do exercício
- Ajuste o UMAP a todos os preditores em
house_sales_dfusandostep_umap()em uma receita e armazene os dados transformados emumap_df. - Plote as dimensões do UMAP usando
ggplot(), codificando a variável alvopricena cor.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>%
___(___()) %>%
___(___(), num_comp = 2) %>%
prep() %>%
___()
# Plot UMAP
___ %>%
___(aes(x = ___, y = ___, color = ___)) +
___(alpha = 0.7) +
scale_color_gradient(low="gray", high="blue")