1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Luyện tập câu hỏi phỏng vấn Machine Learning bằng Python

Connected

Bài tập

Trực quan hóa các PC với scree plot

Trong một buổi phỏng vấn machine learning, bạn có thể được hỏi số lượng đặc trưng tối ưu cần giữ lại là bao nhiêu. Trong bài tập này, bạn sẽ tạo một scree plot và biểu đồ tỉ lệ phương sai giải thích tích lũy của các thành phần chính bằng PCA trên loan_data. Điều này sẽ giúp xác định số lượng PC tối ưu để huấn luyện một mô hình ML chính xác hơn về sau.

Vì PCA là phương pháp không giám sát, phân tích thành phần chính được thực hiện trên ma trận X sau khi đã loại bỏ biến mục tiêu Loan Status khỏi dữ liệu. Không đặt n_components sẽ trả về tất cả các thành phần chính từ mô hình đã huấn luyện.

Hướng dẫn 1/4

undefined XP
  • 1
    • Tạo ma trận dữ liệu X, loại bỏ biến mục tiêu.
    • Khởi tạo, fit và transform một đối tượng PCA trả về 10 PC.
  • 2
    • Tạo một DataFrame ánh xạ Variance Explained tới tỉ lệ phương sai giải thích.
    • Tạo scree plot từ pca_df, đặt các PC trên trục hoành và phương sai giải thích trên trục tung.
  • 3
    • Khởi tạo, fit và transform một đối tượng PCA mà không đặt n_components.
    • In ra tỉ lệ phương sai giải thích.
  • 4
    • Gán tổng tích lũy của các tỉ lệ phương sai giải thích từ bước trước cho cumulative_var.
    • Vẽ biểu đồ kết quả.