1. Учиться
  2. /
  3. Courses
  4. /
  5. Giảm Chiều Dữ Liệu với R

Connected

Exercise

Tách biệt giá nhà với UMAP

Bạn đã giảm số chiều của dữ liệu bán nhà ở California (house_sales_df) bằng PCA và t-SNE. Bây giờ bạn sẽ dùng UMAP. Kết quả cuối cùng của UMAP rất giống với t-SNE, tuy nhiên UMAP thường hiệu quả tính toán hơn. UMAP cũng cố gắng giữ lại nhiều cấu trúc toàn cục hơn. Nói thực tế, điều này nghĩa là bạn có thể diễn giải khoảng cách giữa các cụm như một thước đo mức độ tương đồng — điều mà bạn không thể làm với t-SNE.

Nhớ rằng biến đích của house_sales_df là price. Đặt num_comp = 2. Các gói tidyverse và embed đã được nạp sẵn cho bạn.

Инструкции

100 XP
  • Khớp UMAP cho tất cả các biến dự báo trong house_sales_df bằng step_umap() trong một recipe và lưu dữ liệu đã biến đổi vào umap_df.
  • Vẽ các chiều UMAP bằng ggplot(), mã hóa biến đích price bằng màu sắc.