1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế quy trình Machine Learning bằng Python

Connected

Bài tập

Xử lý nhiễu trong nhãn

Một nhà phân tích an ninh mạng của bạn thông báo rằng nhiều nhãn cho 100 máy tính nguồn đầu tiên trong dữ liệu huấn luyện có thể bị sai do lỗi cơ sở dữ liệu. Cô ấy hy vọng bạn vẫn có thể dùng dữ liệu vì phần lớn nhãn vẫn đúng, nhưng đề nghị bạn coi 100 nhãn này là "nhiễu". May mắn là bạn biết cách xử lý bằng học có trọng số. Dữ liệu bị nhiễu đã có sẵn trong không gian làm việc của bạn dưới dạng X_train, X_test, y_train_noisy, y_test. Bạn muốn xem liệu có thể cải thiện hiệu năng của bộ phân loại GaussianNB() nhờ học có trọng số hay không. Bạn có thể dùng tham số tùy chọn sample_weight, được hỗ trợ bởi các phương thức .fit() của hầu hết các bộ phân loại phổ biến. Hàm accuracy_score() đã được nạp sẵn. Bạn có thể tham khảo hình dưới để được gợi ý.

Hướng dẫn

100 XP
  • Huấn luyện một đối tượng GaussianNB() trên dữ liệu huấn luyện với nhãn bị nhiễu.
  • Báo cáo độ chính xác trên dữ liệu kiểm tra bằng accuracy_score().
  • Tạo trọng số gán trọng số gấp đôi cho các nhãn ground truth so với các nhãn nhiễu. Lưu ý trọng số áp dụng cho dữ liệu huấn luyện.
  • Huấn luyện lại bộ phân loại với các trọng số trên và báo cáo độ chính xác.