1. Learn
  2. /
  3. Cursuri
  4. /
  5. Reducerea dimensionalității în R

Connected

exercițiu

Separarea prețurilor imobiliare cu UMAP

Ai redus dimensionalitatea datelor privind vânzările de locuințe din California (house_sales_df) folosind PCA și t-SNE. Acum vei aplica UMAP. Rezultatul final al UMAP este foarte similar cu cel al t-SNE, însă UMAP tinde să fie mai eficient din punct de vedere computațional. De asemenea, își propune să păstreze mai mult din structura globală a datelor. În termeni practici, acest lucru înseamnă că poți interpreta distanța dintre clustere ca o măsură a similarității — ceva ce nu era posibil cu t-SNE.

Reține că variabila țintă din house_sales_df este price. Setează num_comp = 2. Pachetele tidyverse și embed au fost deja încărcate pentru tine.

Instrucțiuni

100 XP
  • Antrenează UMAP pe toți predictorii din house_sales_df folosind step_umap() într-un recipe și stochează datele transformate în umap_df.
  • Vizualizează dimensiunile UMAP folosind ggplot(), codificând variabila țintă price prin culoare.