Phân tích thành phần chính

Trong 2 chương trước, bạn đã thấy nhiều cách giảm số chiều của tập dữ liệu, bao gồm regularization và chọn đặc trưng. Khả năng giải thích các khía cạnh khác nhau của việc giảm số chiều là rất quan trọng trong một buổi phỏng vấn Machine Learning. Các tập dữ liệu lớn tốn nhiều thời gian tính toán, và nhiễu trong dữ liệu có thể làm sai lệch kết quả.

Một cách giảm số chiều là phân tích thành phần chính (PCA). Đây là phương pháp hiệu quả để thu nhỏ kích thước dữ liệu bằng cách tạo ra các đặc trưng mới, vừa giữ lại thông tin hữu ích nhất của tập dữ liệu, vừa loại bỏ đa cộng tuyến. Trong bài tập này, bạn sẽ dùng mô-đun sklearn.decomposition để thực hiện PCA trên các đặc trưng của tập dữ liệu diabetes đồng thời tách riêng biến mục tiêu progression.

Đây là vị trí hiện tại của bạn trong pipeline:

Machine learning pipeline

Import mô-đun phù hợp để thực hiện PCA.
Tạo ma trận đặc trưng X và mảng mục tiêu y với progression từ tập dữ liệu diabetes.

Bài tập

Phân tích thành phần chính

Hướng dẫn 1/4

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn 1/4

Bài tập