Bộ phân loại baseline bằng Logistic Regression

Trong 2 bài học trước, bạn đã thấy việc chọn đặc trưng quan trọng như thế nào trong bối cảnh phỏng vấn Machine Learning. Một nhóm câu hỏi phổ biến khác bạn có thể gặp liên quan đến kỹ thuật đặc trưng (feature engineering) và cách chúng giúp cải thiện hiệu năng mô hình.

Trong bài tập này, bạn sẽ tạo một đặc trưng mới trên bộ dữ liệu loan_data từ Chương 1, so sánh điểm chính xác của các mô hình Logistic Regression trên bộ dữ liệu trước và sau khi làm feature engineering bằng cách so sánh nhãn kiểm tra với giá trị dự đoán của biến mục tiêu Loan Status.

Tất cả các gói cần thiết đã được nhập sẵn cho bạn: matplotlib.pyplot là plt, seaborn là sns, LogisticRegression từ sklearn.linear_model, train_test_split từ sklearn.model_selection, và accuracy_score từ sklearn.metrics.

Feature engineering được coi là một bước tiền xử lý trước khi xây dựng mô hình: Machine learning pipeline

1
- Huấn luyện và dự đoán bằng Logistic Regression trên loan_data với biến mục tiêu Loan Status làm y, và đánh giá điểm chính xác của mô hình đã huấn luyện.

2
- Chuyển Annual Income về giá trị theo tháng và tính tỷ lệ Monthly Debt trên monthly_income, lưu vào dti_ratio.
3
- Chuyển biến mục tiêu sang giá trị số và thay các đặc trưng phân loại bằng các biến giả (dummy).
4
- Huấn luyện và dự đoán bằng Logistic Regression trên loans_dti và đánh giá điểm chính xác của mô hình đã huấn luyện.

Exercise

Bộ phân loại baseline bằng Logistic Regression

Instructions 1/4

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions 1/4

Exercise