1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Luyện tập câu hỏi phỏng vấn Machine Learning bằng Python

Connected

Bài tập

Kỹ thuật lấy mẫu lại (resampling)

Trong bài trước, bạn đã thấy mất cân bằng lớp có thể ảnh hưởng đến ma trận nhầm lẫn như thế nào. Ở bài này, bạn sẽ thực hành các kỹ thuật lấy mẫu lại để xem những kết quả khác nhau mà các kiểu lấy mẫu thay thế có thể tạo ra trên một tập dữ liệu mất cân bằng lớp như loan_data. Sử dụng hàm resample() của sklearn, việc tăng số hàng của lớp thiểu số để khớp với lớp đa số được gọi là upsampling, trong khi giảm số hàng của lớp đa số để khớp với lớp thiểu số được gọi là downsampling.

Bạn sẽ tạo cả phiên bản upsampled và downsampled của tập loan_data, áp dụng logistic regression lên cả hai và sau đó đánh giá hiệu năng. Dữ liệu huấn luyện và nhãn tương ứng với deny đã được lấy mẫu con chỉ chứa lớp thiểu số và với approve tương ứng với lớp đa số.

Một đối tượng tập kiểm tra từ phép chia train/test để tạo dự đoán đã được lưu vào workspace dưới tên X_test để bạn sử dụng trong bài tập.

Hướng dẫn 1/3

undefined XP
  • 1
    • Tạo lớp thiểu số đã upsample có độ dài bằng lớp đa số và nối lại (đã làm sẵn cho bạn).
    • Tạo lớp đa số đã downsample có độ dài bằng lớp thiểu số và nối lại (đã làm sẵn cho bạn).
  • 2
    • Tạo ma trận đặc trưng và mảng mục tiêu cho phiên bản upsampled.
    • Khởi tạo một đối tượng mô hình logistic regression, fit và dự đoán với X_test.
    • In các chỉ số đánh giá.
  • 3
    • Tạo ma trận đặc trưng và mảng mục tiêu cho phiên bản downsampled.
    • Khởi tạo một đối tượng mô hình logistic regression, fit và dự đoán với X_test.
    • In các chỉ số đánh giá.