Phương pháp filter và wrapper

Các câu hỏi về giảm số chiều của tập dữ liệu xuất hiện rất thường xuyên trong phỏng vấn Machine Learning. Một cách để giảm số chiều là chỉ chọn những đặc trưng (feature) phù hợp trong tập dữ liệu của bạn.

Tại đây, bạn sẽ thực hành một phương pháp filter trên DataFrame diabetes, sau đó là 2 kiểu phương pháp wrapper khác nhau có kèm cross-validation. Bạn sẽ dùng pandas, matplotlib.pyplot và seaborn để trực quan hóa tương quan, xử lý dữ liệu và áp dụng các kỹ thuật chọn đặc trưng cho tập dữ liệu.

Ma trận đặc trưng sau khi đã loại bỏ cột biến mục tiêu (progression) được nạp là X, còn biến mục tiêu được nạp là y.

Lưu ý pandas, matplotlib.pyplot và seaborn đã được import sẵn vào không gian làm việc của bạn và đặt bí danh lần lượt là pd, plt và sns.

Hãy chú ý bạn đã thêm bước Cross-validate vào pipeline (áp dụng cho 3 bước cuối):

Machine learning pipeline

1
- Tạo ma trận tương quan với diabetes và một heatmap, sau đó chọn các đặc trưng có tương quan lớn hơn 50%.

2
- Khởi tạo một bộ ước lượng SVR kernel tuyến tính và một bộ chọn đặc trưng với 5 lần cross-validation, rồi fit vào đặc trưng và mục tiêu.
3
- Loại bỏ cột không quan trọng tìm được ở bước 2 khỏi X, khởi tạo một đối tượng LarsCV và fit vào dữ liệu của bạn.

Bài tập

Phương pháp filter và wrapper

Hướng dẫn 1/3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn 1/3

Bài tập