1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Machine Learning với Mô hình Dựa trên Cây trong R

Connected

Bài tập

Tránh mất cân bằng lớp

Một số dữ liệu có phân bố đầu ra rất mất cân bằng — như bộ dữ liệu về một bệnh hiếm. Khi tách ngẫu nhiên, bạn có thể gặp một lần tách rất tệ. Hãy tưởng tượng tất cả quan sát hiếm đều rơi vào tập kiểm tra và không có cái nào trong tập huấn luyện. Điều đó sẽ phá hỏng toàn bộ quá trình huấn luyện!

May mắn là hàm initial_split() có cách khắc phục. Trong bài tập này, bạn sẽ quan sát và xử lý những trường hợp gọi là hiện tượng mất cân bằng lớp này.

Đã có sẵn mã tạo đối tượng tách diabetes_split với tỉ lệ 75% huấn luyện và 25% kiểm tra.

Hướng dẫn 1/2

undefined XP
  • 1
    • Đếm tỷ lệ đầu ra "yes" trong các tập huấn luyện và kiểm tra của diabetes_split.
  • 2
    • Thiết kế lại diabetes_split với cùng tỷ lệ huấn luyện/kiểm tra, nhưng biến outcome được phân phối đồng đều ở cả hai tập.
    • Đếm tỷ lệ đầu ra yes trong cả hai tập dữ liệu.