Séparer les prix des maisons avec UMAP
Vous avez réduit la dimensionnalité des ventes de maisons en Californie (house_sales_df) avec PCA et t-SNE. Vous allez maintenant utiliser UMAP. Le résultat final d’UMAP est très proche de celui de t-SNE ; cependant, UMAP est généralement plus efficace en calcul. Il cherche aussi à conserver davantage la structure globale. Concrètement, vous pouvez interpréter la distance entre les groupes comme une mesure de similarité — ce qui n’était pas possible avec t-SNE.
Rappel : la variable cible de house_sales_df est price. Définissez num_comp = 2. Les packages tidyverse et embed ont été chargés pour vous.
Cet exercice fait partie du cours
Réduction de dimension en R
Instructions
- Ajustez UMAP à tous les prédicteurs de
house_sales_dfavecstep_umap()dans une recette et stockez les données transformées dansumap_df. - Représentez les dimensions UMAP avec
ggplot(), en encodant la variable ciblepricepar la couleur.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>%
___(___()) %>%
___(___(), num_comp = 2) %>%
prep() %>%
___()
# Plot UMAP
___ %>%
___(aes(x = ___, y = ___, color = ___)) +
___(alpha = 0.7) +
scale_color_gradient(low="gray", high="blue")